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大 数据 是 云 计 算 、 物 联网 ,移动 互联 网 .智慧 城市 等 新 技术 、 新 模式 发 展 的 必然 产物 , 必 将 对 物 联 网 产 
业 产 生 深远 的 影响 。 大 数据 应 用 也 将 对 社会 的 组 织 结构 .经济 运 行 机 制 . 国 家 的 治理 模式 ` 企 业 的 决策 架 
构 商业 的 业务 策略 以 及 个 人 的 生活 .工作 和 思维 方式 等 产生 深远 的 影响 。 

本 书 由 两 大 部 分 组 成 ,第 一 部 分 介绍 大 数据 管理 理论 框架 和 生态 系统 ,包括 大 数据 概述 ; 大 数据 战略 
和 商业 模式 变革 ; 大 数据 平台 的 架构 体系 ; 大 数据 的 数据 整合 、 交 换 与 交易 ; 大 数据 管理 和 治理 ; 最 后 提 
出 大 数据 创新 方法 论 。 第 二 部 分 介绍 数据 科学 和 数据 工程 ,包括 数据 科学 理论 和 工具 ; 医疗 健康 大 数据 解 
决 方案 .环保 行业 大 数据 解决 方案 .移动 社交 行业 大 数据 解决 方案 .金融 大 数据 解决 方案 .中 国 制造 大 数据 
解决 方案 和 大 数据 工程 保障 体系 建设 。 

大 数据 是 综合 性 较 高 的 交叉 学 科 , 本 书 全 面 、 系 统 地 曾 述 了 大 数据 管理 和 技术 、 大 数据 科学 和 工程 , 具 
有 很 强 的 理论 指导 性 和 实践 意义 。 本 书 可 以 供 企业 管理 者 .数据 科学 研究 工作 者 .首席 信息 官 等 作为 参考 
资料 ,也 可 以 作为 企业 管理 计算机、 软件 工程 等 相关 专业 学 生 的 教材 使 用 。 
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大 数据 是 信息 领域 的 前 沿 技 术 。 大 数据 时 代 的 来 临 ,使 人 类 有 可 能 在 浩如烟海 的 技术 
领域 中 ,通过 使 用 各 种 数据 ,发 现 和 探索 自然 世界 的 规律 。 大 数据 时 代 的 物理 科学 、 计 算 科 
学 ,生命 科学 、 社 会 科学 及 其 他 许多 科学 门类 都 将 发 生 本 质 上 的 变化 和 发 展 ,进而 对 人 类 的 
生产 方式 、 生 活 方式 和 学 习 方式 产生 深刻 的 影响 。 

信息 技术 与 经 济 社会 的 交汇 融合 引发 了 数据 的 迅猛 增长 ,大 数据 已 成 为 国家 基础 性 战略 
资源 ,发 展 大 数据 及 其 相关 技术 研究 更 是 重 塑 国家 竞争 优势 的 新 机 遇 。 国 务 院 在 2015 年 印发 
的 《促进 大 数据 发 展 行动 纲要 》 中 就 强调 了 发 展 新 兴 产 业 大 数据 和 工业 大 数据 管理 应 用 的 重要 
性 。 通 过 大 数据 这 种 创新 方式 来 解决 我 国 在 教育 .交通 .医疗 和 工程 行业 现代 化 所 面临 的 种 种 
问题 ,创建 新 的 产业 群 ,对 实现 由 “中 国 制 造 " 到 “中 国 智 造 " 再 到 “中 国 创造 "有 着 重大 意义 。 

云 计算 、 物 联网 ,移动 互联 网 等 新 兴 服 务 促 使 人 类 社会 的 数据 种 类 和 规模 正 以 前 所 未 有 
的 速度 增长 。 大 数据 具有 Volume( 大 量 )、Velocity( 高 速 ) 、Variety( 多 样 )、Value( 低 价值 密 
度 )、Veracity( 真 实 性 ) 这 “5V” 特 性 。 对 制造 企业 而 言 ,大 数据 技术 的 战略 意义 不 仅 在 于 掌 
握 庞 大 的 数据 信息 ,更 在 于 对 数据 的 “加 工 能 力 ”, 即 对 大 量 数据 进行 专业 化 处 理 的 能 力 ,使 
之 转化 成 为 对 企业 有 价值 的 信息 。 制 造 企业 如 果 能 够 在 工业 环境 中 建立 起 大 数据 平台 , 提 
高 工厂 对 不 同 设备 收集 的 海量 信息 进行 数据 挖掘 的 能 力 , 提 高 企业 信息 系统 的 计算 能 力 和 
数据 处 理 能 力 ,实现 对 企业 的 产品 数据 ,运营 数据 ,销售 数据 ,客户 数据 的 实时 而 有 针对 性 的 
分 析 , 用 于 洞察 市 场 先 机 、 客 户 需求 ,优化 生产 与 管理 流程 ,降低 成 本 、 提 高 运营 效率 、 实 现 精 准 
营销 等 ,使 得 企业 能 够 在 成 本 有 效 控制 的 条 件 下 ,实现 智能 化 生产 ,协同 化 组 织 和 个 性 化 服务 。 

赵 眸 光 和 赵勇 博士 多 年 在 大 数据 理论 .技术 与 应 用 等 方面 深入 研究 ,取得 了 一 系列 成 
就 。 本 书 重点 围绕 大 数据 管理 和 大 数据 工程 两 方面 进行 了 系统 化 的 阐述 ,研究 了 大 数据 平 
台 的 体系 架构 和 数据 整合 ,交换 与 交易 技术 ,通过 对 大 数据 的 管理 ,总 结 出 大 数据 创新 方法 
论 。 此 外 ,本 书 详细 介绍 了 数据 科学 理论 与 工具 ,包括 数据 仓库 .数据 挖掘 和 知识 发 现 等 ,对 
于 医疗 行业 、 移 动 社交 工业 制造 等 几 个 热点 行业 数据 工程 的 实践 ,进行 了 有 针对 性 的 阐述 。 
全 书 内 容 系 统 , 论 述 充分 ,为 高 校 , 研 究 院 所 科技 研究 人 员 和 企业 工程 技术 人 员 管理 人 员 从 


事 大 数据 研究 、 应 用 和 培训 提供 了 一 本 极 好 的 参考 书 。 特 此 推荐 。 
到 
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数据 自古 存在 。 

乌 色 壳 、 树 皮 、 绸 给 .竹简 都 曾 是 记录 数据 的 媒介 ,留声机 、 磁 带 机 也 曾经 风靡 过 ,就 连 现 
在 的 信息 技术 , 像 个 人 电脑 智能 手机 、iPad 在 不 远 的 将 来 也 将 会 退出 舞台 , 唯 有 数据 ,虽然 
不 断 地 变换 表现 形态 , 却 将 一 直 伴 随 人 类 走向 未 来 。 

物 联 网 本 质 上 是 器 物 层面 的 技术 ,从 大 数据 的 视角 而 言 ,是 采集 数据 的 终端 。 云 计算 本 
质 上 是 传统 计算 机 和 网 络 技术 发 展 融合 的 产物 。 物 联网 和 云 计 算 都 是 信息 技术 发 展 的 一 定 
阶段 的 自然 延伸 ,依然 属于 信息 技术 范畴 。 而 大 数据 其 实 是 传统 数据 发 生 的 质变 。 大 数据 
超越 信息 技术 ,使 人 们 重新 界定 国家 竞争 的 主 战 场 , 重 新 审视 政府 治理 水 平 , 重 新 认识 科学 
研究 的 新 范式 ,重新 审视 产业 变迁 的 驱动 因素 ,重新 理解 投资 的 决策 依据 ,重新 思考 公司 的 
战略 和 组 织 。 总 之 ,大 数据 是 推动 经 济 发 展 、 保 障 国 家 安全 和 社会 治理 的 永恒 主题 。 

大 数据 蕴含 巨大 价值 ,是 国家 意志 和 主权 不 可 分 割 的 部 分 。 

2012 年 3 月 ,奥巴马 发 布 美国 版 的 (大 数据 发 展 计划 》 时 ,我 曾经 写 过 一 段 点 评 :“ 国 家 
层面 大 数据 技术 领域 的 竞争 事 关 一 国 的 安全 和 未 来 。 国 家 数字 主权 体现 为 对 数据 的 占有 和 
控制 。 数 字 主 权 将 是 继 边 防 、 海 防 、 空 防 之 后 , 另 一 个 大 国 博 弈 的 空间 .” 在 这 篇 点 评 中 ,明确 
提出 数字 主权 的 概念 ,坦言 大 数据 必须 上 升 为 国家 意志 ,落实 为 国家 战略 。2014 年 5 月 1 
日 ,美国 白宫 发 布 了 (美国 白宫 : 2014 年 全 球 “ 大 数据 ”) 白 皮 书 ,阐述 了 大 数据 带 来 的 机 直 
与 挑战 。2014 年 8 月 ,联合 国 开发 计划 署 首 次 携手 科技 企业 共 建 大 数据 实验 室 。 我 国 2015 
年 9 月 (促进 大 数据 发 展 行动 纲要 》 出 台 .赋予 了 大 数据 作为 建设 数据 强国 .提升 政府 治理 能 
力 和 推动 经 济 转型 升级 的 战略 地 位 。 

保护 国家 层面 的 数据 安全 ,恰恰 是 以 数据 开放 为 基础 的 。 开 放 是 一 种 态度 ,更 是 一 项 能 
力 。 一 些 重大 基础 数据 开放 ,可 以 构成 社会 的 数据 基础 ,按照 大 数据 定律 之 一 “数据 之 和 的 
价值 远 远大 于 数据 价值 的 和 ”来 推断 ,来 自 不 同 领 域 的 数据 聚合 在 一 起 ,开放 给 社会 ,将 会 产 
生 类 似 核 聚 变 一 样 的 价值 发 现 效 应 。 

开放 的 数据 是 基础 ,促使 信息 产业 繁荣 ,才能 诞生 真正 的 数据 驱动 的 企业 ,这 些 企业 反 
过 来 在 数据 领域 的 技术 进步 , 才 是 确保 国家 数据 安全 的 长 治 久 安之 策 。 很 难 想象 ,如 果 没 有 
谷歌 .亚马逊 .Facebook ,苹果 这 样 的 公司 , 单 赁 美国 政府 一 已 之 力 能 够 实施 如 此 庞大 的 “ 棱 
镜 ” 计 划 吗 ?所 以 制定 国家 大 数据 战略 ,需要 重新 思考 传统 的 所 谓 的 “国家 机 密 ” 和 国家 安全 
的 关系 。 应 当 把 消除 部 门 数据 格局 ,建立 公开 、 透 明 、 共 享 的 数据 公共 平台 作为 长 期 的 战略 
目标 。 

大 数据 将 成 为 政府 治理 ,企业 管理 ,产业 价值 发 现 的 重要 工具 。 

大 数据 将 打开 各 行 各 业 的 数据 宝藏 。 政 府 治理 ,社交 网 络 、 医 疗 、 教 育 \ 环 保 、 金 融 、 智 能 
制造 等 ,都 会 受益 于 大 数据 而 被 挖掘 出 更 多 的 价值 。 在 政府 治理 领域 ,通过 让 海量 动态、 多 
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样 的 数据 有 效 集成 为 有 价值 的 信息 资源 ,推动 政府 转变 管理 理念 和 治理 模式 ,进而 加 快 治理 

体系 和 治理 能 力 现代 化 。 还 有 推动 政府 治理 决策 精细 化 和 科学 化 。 如 何 将 海量 数据 对 行业 

进行 管理 决策 .产品 设计 、 精 准 营销 、 客 户 个 性 化 服务 等 ? 如 何 对 行业 大 数据 进行 商业 模式 

设计 ?如 何 进 行 大 数据 平台 建设 ? 如 何 发 挥 大 数据 性 能 优势 ? 如何 解决 安全 和 隐私 ?如何 

对 各 种 大 数据 进行 可 视 化 ?达到 好 的 效果 ?本 书 解决 了 大 数据 从 顶层 设计 到 应 用 落地 ,从 

商业 模式 到 技术 平台 ,从 数据 管理 到 数据 价值 发 现 。 本 书 的 出 版 ,正如 天 降 甘露 , 恰 到 时 机 。 
数据 科学 一 一 科学 地 研究 数据 ,用 数据 来 研究 科学 。 

大 数据 的 五 大 特征 ( 体 量 、 类 型 速度 、 价 值 和 真实 ) 蕴 含 了 大 数据 丰富 的 内 涵 和 外 延 。 
学 术 界 在 大 数据 时 代 有 了 广阔 的 舞台 。 大 数据 的 早期 发 展 是 由 技术 性 公司 推动 起 来 的 , 例 
如 谷歌 .亚马逊 等 一 线 互联 网 公司 。 产 学 研 合 作 也 正好 是 推进 大 数据 发 展 的 最 佳 途径 。 学 
术 界 有 很 好 的 理论 基础 和 算法 优势 ,产业 界 有 很 好 的 支持 平台 。 鄂 维 南 院士 呼吁 学 术 界 向 
谷歌 公司 学 习 , 同 时 指出 :“ 大 数据 在 科学 领域 的 表现 是 数据 科学 的 兴起 ,数据 科学 将 成 为 
科研 体系 中 的 重要 组 成 部 分 ”, 也 为 数据 科学 发 展 指明 了 方向 。 

在 大 数据 时 代 , 许 多 学 科 表 面 上 看 来 研究 的 方向 大 不 相同 ,但 是 从 数据 的 视角 来 看 ,其 
实 是 相通 的 。 比 方 说 自然 语言 处 理 和 生物 大 分 子 模型 里 之 所 以 都 用 到 隐 式 马 氏 过 程 和 动态 
规划 方法 ,其 最 根本 的 原因 是 它们 处 理 的 都 是 一 维 的 随机 信号 ; 再 如 用 于 图 像 处 理 的 算法 
和 用 于 压缩 感知 的 算法 也 有 着 许多 共同 之 处 。 

图 灵 奖 得 主格 雷 (Jim Gray) 提 出 科学 研究 的 “第 四 范式 ”是 数据 ,不 同 于 实验 、 理 论 和 计 
算 这 三 种 范式 。 在 该 范式 下 ,需要 “将 计算 用 于 数据 ,而 非 将 数据 用 于 计算 ”"。 吴 军 博 士 在 
《数学 之 美 ) 一 书 中 也 讲 到 了 这 方面 的 故事 。 以 自然 语言 的 机 器 翻译 研究 为 例 , 最 初 科学 家 
们 都 是 试图 为 计算 机 建立 一 系列 的 语法 规则 ,按照 语法 、 词 义 来 翻译 成 另外 一 门 语言 。 这 个 
思路 非常 直观 ,因为 人 们 就 是 如 此 理解 学 习 的 语言 的 。 但 是 在 实践 中 却 困难 重重 ,基于 语法 
规则 的 翻译 器 ,几乎 就 没有 商用 过 。 而 当 科学 家 们 改 弦 易 张 ,计算 每 一 个 词 .每 一 句 话 的 “ 合 
理 概率 "时 ,复杂 的 机 器 翻译 就 简化 成 了 文字 的 概率 计算 。 通 俗 地 说 就 是 :“ 如 果 大 多 数 人 
都 这 么 说 ,就 认为 是 对 的 ." 这 种 思想 在 越 来 越 多 的 领域 得 到 应 用 。 比 如 宏观 尺度 研究 的 天 
体 信 息 学 、 社 会 行为 学 ,微观 尺度 上 分 析 人 类 的 基因 组 .追踪 物理 学 家 们 梦 塞 以 求 的 “上 
帝 粒子 ”。 

随 着 大 数据 应 用 领域 的 逐步 深入 , 越 来 越 多 的 应 用 在 数据 层面 趋 于 一 致 。 数 据 科学 在 
数学 、 概 率 模型 .统计 学 等 和 实际 应 用 之 间 建 立 起 了 直接 的 桥梁 。 本 书 在 数据 科学 理论 方面 
建立 起 了 有 效 的 方法 论 体 系 。 

数据 工程 一 一 大 数据 产业 发 展 支撑 体系 。 

曾经 和 中 关 村 大 数据 产业 联盟 几 位 专家 ,总 裁 一 起 讨论 ,大 家 七 嘴 八 舌 地 提出 “十 大 数 
据 ” 的 概念 。 希 望 在 联盟 中 培育 出 各 个 专家 组 ,把 大 数据 思维 嫁接 到 不 同 的 产业 ,推动 大 数 
据 在 各 行 各 业 落 地 。 大 数据 产业 变革 综合 运用 了 大 数据 相关 理论 。 本 书 介绍 了 医疗 、 环 保 、 
社区 、 金 融和 智能 制造 大 数据 产业 分 析 和 系统 架构 实现 ,对 其 他 行业 的 应 用 也 有 很 好 的 指导 
作用 。 许 多 行业 龙头 也 开始 蠢蠢欲动 ,应 用 大 数据 思维 解决 产业 变革 问题 。 例 如 农业 领域 
的 大 北 农 教 育 行业 的 新 东方 、 玩 具 领 域 的 奥 飞 动漫 …… 

给 企业 家 们 带 来 冲击 的 不 仅仅 是 大 数据 引起 的 产业 变革 ,更 是 一 些 新 兴 公 司 的 不 可 思 
议 的 跨 界 能 力 。 就 像 本 书 中 指出 的 那样 ,行业 之 间 的 界限 变 得 越 来 越 模糊 ,这 些 新 兴 的 “ 野 


蛮 人 ”采用 新 的 技术 、 新 的 模式 ,大 规模 采集 数据 ,迅速 形成 预 判 , 然 后 就 以 看 似 “ 野 蛮 ” 的 方 
式 扩张 到 其 他 行业 。 璧 如 卖 农产品 的 去 搞 金融 服务 ,做 金融 业务 的 帮助 企业 做 采购 等 等 ,不 
一 而 足 。 

传统 产业 的 各 行 各 业 , 都 面临 在 大 数据 和 移动 互联 网 时 代 如 何 彻底 转型 和 再 造 问 题 。 
产业 整合 ,也 在 大 数据 时 代 出 现 了 全 新 的 整合 逻辑 和 实现 契机 …… 我 仿佛 看 到 了 一 个 未 来 
景象 : 传统 产业 都 可 能 在 大 数据 和 移动 互联 时 代 重 现 生 机 、 焕 发 青春 。 当 然 , 与 此 对 应 的 
是 ,凡是 不 能 跟 上 这 个 时 代步 伐 的 企业 和 行业 ,将 会 退出 历史 舞台 。 

在 星空 格局 之 下 ,公司 的 竞争 力 更 多 体现 在 “平台 十 特种 部 队 ” 模 式 。 就 像 美军 前 线 的 
一 个 小 分 队 , 甚 至 单 兵 可 以 直接 指挥 后 方 的 导弹 、 飞 机 一 样 。 以 星空 格局 作为 产业 演化 的 最 
终 形态 ,以 特种 部 队 作为 业务 竞争 的 基本 单元 ,整个 公司 的 战略 .组织 文化 等 方面 需要 彻底 
的 重组 。 传 统 公司 的 确 需要 重新 审视 自己 的 战略 , 重 构 组 织 , 再 育 文化 ,这 也 是 大 数据 思维 
非常 重要 的 原因 。 

综 上 所 述 , 不 能 狭隘 地 看 待 大 数据 ,不 能 将 其 作为 数据 挖掘 的 工具 ,不 能 唯 技术 论 。 很 
欣慰 看 到 两 位 学 者 编写 的 (大 数据 * 数据 管理 与 数据 工程 ) 一 书 ,不 是 就 技术 而 谈 技 术 , 而 是 
从 更 宽广 的 视角 站 释 大 数据 带 来 的 冲击 .管理 理念 的 变革 以 及 大 数据 生态 系统 。 尤 为 重要 
的 是 ,提出 数据 工程 的 概念 , 黄 定 了 大 数据 应 用 领域 标准 化 .工程 化 的 基础 。 

从 大 历史 观 来 看 “大 数据 ”的 内 涵 远 远 超越 物 联网 、 云 计算 等 信息 技术 的 概念 , 它 的 意 
义 可 以 比肩 活字 印刷 术 的 发 明 .。“ 大 数据 ?将 在 世界 尺度 上 大 范围 地 消除 信息 不 对 称 的 现 
象 ,释放 巨大 的 生产 力 ,深刻 改变 社会 的 面貌 ,革新 科学 研究 的 思想 ,促进 产业 间 的 跨 界 、 融 


合 和 苏 团 ,并 将 极 大 地 促进 文明 的 传播 ,凝聚 和 升华 。 
二 


是 以 为 序 ! 
中 关 村 大 数据 产业 联盟 秘书 长 
2016 年 12 月 
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建立 互联 网 金融 治理 体系 ,应 该 成 为 我 国 金融 治理 体系 和 金融 治理 能 力 建 设 的 重要 内 
容 , 大 力 发 展 互联 网 金融 ,以 互联 网 金融 治理 推进 中 国 金融 治理 体系 和 治理 能 力 现代 化 ,是 
金融 治理 创新 发 展 的 重要 引擎 。 凯 文 。 凯 利 (Kevin Kelly) 被 誉 为 互联 网 经 济 的 预言 家 ,他 
精准 预测 Web 2. 0 时 代 的 到 来 和 网 络 经 济 的 运行 规律 。 凯 文 . 凯利 预言 ,未 来 ,大 数据 、 云 
计算 ,移动 通信 三 者 相 结 合 的 技术 进步 将 激发 大 数据 、 深 度 学 习 、 人 工 智能 、P2P、 虚 拟 货币 
等 方面 的 技术 突变 ,而 这 些 正 在 成 为 现实 。 未 来 技术 改变 的 世界 有 四 大 特征 : 万 物 互联 , 信 
息 交 互 .数据 集成 ,智能 决策 ,这 四 大 特征 正 是 物 联 网 大 数据 时 代 的 主要 特征 ,这 也 正 是 金融 
模式 创新 的 基础 前 提 。 

从 该 书 大 数据 市 场 行业 应 用 分 析 中 可 以 看 出 ,金融 行业 在 大 数据 应 用 可 行 性 和 市 场 成 
熟 度 方面 都 属于 优先 级 比较 高 的 领域 .是 大 数据 应 用 热点 。 本 书 提纲 报 领 高 屎 建 氏 地 从 大 
数据 系统 科学 的 角度 去 认识 "大 数据 ”, 指 出 大 数据 的 内 涵 和 研究 方向 ,从 而 发 现 大 数据 的 价 
值 ,通过 全 球 大 数据 的 战略 视角 ,窥视 行业 应 用 商业 模式 和 商业 机 会 。 从 金融 创新 来 看 , 数 
据 成 为 资产 .行业 垂直 整合 ,平台 泛 金 融化 成 为 商业 发 展 主流 趋势 ,行业 产业 链条 加 深 加 长 ， 
促使 商业 创新 模式 层出不穷 。 互 联网 创造 出 新 的 商业 模式 ,塑造 新 的 经 济 形态 ,创造 新 的 经 
济 生 态 空间 ,加 大 生产 可 能 性 边界 ,降低 生产 成 本 和 融资 成 本 ,互联 网 基因 已 经 融入 到 社会 
运行 的 底层 物质 技术 结构 之 中 。 大 数据 时 代 的 金融 创新 , 必 将 发 生 像 作者 在 书 中 提 到 的 种 
种 金融 变革 。 

该 书 从 大 数据 架构 体系 、. 安 全 和 隐私 、 系 统 整合 .数据 管理 以 及 理论 创新 方面 全 面 系 统 
地 提出 管理 方法 和 技术 工具 ,通过 数据 科学 理论 在 金融 创新 和 风险 控制 方面 ,在 大 数据 征 信 
贷款 、 大 数据 反 欺 诈 、 大 数据 客户 管理 和 精准 营销 方面 做 出 了 分 析 。 例 如 大 数据 技术 运用 于 
信贷 技术 前 ,借款 需要 很 长 时 间 的 审核 ,尤其 是 线 下 取证 、 财 务 报表 、 抵 押 担 保 、 审 批 流程 、 领 
导 签 批 、 最 后 借款 等 环节 。 根 据 内 在 的 大 数据 信用 评估 和 内 控 技 术 , 能 够 实现 实时 计算 借款 
人 的 信用 额度 ,在 信用 额度 内 实现 即时 放款 。 这 在 传统 金融 领域 是 难以 想象 的 ,而 这 种 快速 
借款 模式 ,将 成 为 未 来 互联 网 金融 时 代 的 标志 。 

该 书 体系 完整 结构 清晰 、 人 逻辑 严谨 ,是 大 数据 从 战略 到 战术 、 理 论 到 实践 ,产业 到 模式 、 
标准 到 工程 ,具有 战略 性 、 系 统 性 ,理论 性 和 指导 性 的 大 数据 百宝箱 和 重要 参考 全 书 。 当 前 ， 
国家 大 数据 战略 日 渐 清 晰 ,产业 应 用 初 具 规模 ,大 数据 技术 日 趋 成 熟 , 本 书 为 大 数据 从 业者 
和 应 用 机 构 提供 了 大 数据 应 用 知识 地 图 .全 新 的 认识 和 决策 思路 ,非常 值得 一 读 。 

大 数据 金融 创新 的 数据 可 视 化 已 经 成 为 经 济 分 析 、 管 理 决策 、 绩 效 评价 等 工作 的 重要 工 
具 。 人 金融 可 视 化 是 利用 数学 模型 网络 技术 .数据 挖掘 .计算 机 语言 等 一 系列 数据 科学 前 沿 
科技 综合 应 用 的 重要 成 果 。 该 书 提供 了 丰富 的 金融 数据 可 视 化 展示 工具 和 方法 ,不 仅 能 够 
让 数据 丰富 多 彩 地 展示 ,还 原 真 实 世界 ,得 出 精准 信息 ,更 让 人 们 能 够 通过 数据 模型 直观 地 








甸 2 a el 
感受 到 数据 的 真实 变化 。 数 据 使 得 决策 更 加 科学 化 、 智 能 化 .动态 化 .实时 化 ,成 为 决策 的 重 
要 依据 。 

从 金融 业 的 发 展 趋势 来 看 ,大 数据 技术 将 会 成 为 风险 管理 的 最 佳 工 具 , 云 计算 为 金融 业 
务 的 高 效 实时 处 理 做 出 保障 ,点 对 点 的 资源 配置 方式 充分 发 挥 金融 职能 , 越 来 越 多 的 传统 金 
融 需 要 这 些 互 联网 金融 新 模式 作为 技术 载体 、 信 息 载体 和 业务 载体 。 互 联网 金融 对 现代 人 金 
融 业 的 塑造 主要 体现 在 互联 网 金融 平台 上 ,通过 自我 创造、 自我 发 展 衍生 出 金融 业务 交易 平 
人 台 、 新 兴 技 术 应 用 平台 、 风 险 控 制 管 理 平台 、 金 融 模 式 创 新 平台 和 普 囊 金融 服务 平台 。 本 书 
在 数据 工程 实现 和 金融 平台 建设 上 提供 了 技术 支持 保障 。 

书 中 在 大 数据 管理 创新 和 工程 实践 中 提供 了 全 新 的 视角 和 系统 性 思维 ,在 目前 大 数据 
领域 丛书 中 ,具有 更 强 的 指导 性 。 随 着 应 用 的 不 断 深 入 ,学 习 和 研究 也 要 与 时 俱 进 。 互 联网 
金融 会 成 为 金融 创新 发 展 的 必然 趋势 。 新 的 技术 不 断 涌现 .智能 搜索 引擎 、 区 域 链 技术 、 全 
新 的 信息 通信 和 物 联 网 技术 等 必 将 会 对 金融 业 产 生 革 命 性 的 影响 ,也 为 互联 网 金融 的 发 展 
提供 一 个 良好 的 契机 ,可 以 让 金融 监管 发 挥 更 大 的 效力 。 先 进 的 大 数据 金融 信息 系统 可 以 
及 时 检测 金融 市 场 与 企业 的 动态 ,而 电子 化 的 渠道 可 有 效 地 降低 监管 的 搜索 成 本 ,多 渠道 的 
信息 数据 来 源 可 以 降低 监管 面 对 的 信息 不 对 称 难 题 ,而 通过 机 器 学 习 可 以 构建 智能 监管 监 
测 系统 。 这 些 信 息 化 金融 监管 手段 来 源 于 市 场 ,作用 于 市 场 ,检测 于 市 场 。 金 融 是 现代 经 济 
的 核心 ,推进 我 国 互联 网 金融 治理 体系 和 治理 能 力 现代 化 ,是 金融 治理 创新 和 经 济 发 展 的 必 
由 之 路 。 本 书 一 定 会 成 为 大 数据 青睐 者 和 行业 践 行者 的 良师益友 。 


- 格 


中 国人 民 银 行 金 融 研究 所 所 长 
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信息 作为 一 种 资源 自古 就 存在 ,信息 就 是 物质 ,信息 通过 电子 化 .数字 化 无 限 增值 。 
1800 年 ,伏特 发 明了 世界 上 第 一 块 电池 ; 1946 年 ,人 类 发 明 第 一 台电 脑 。 伴 随 电 脑 、 互 联网 
时 代 的 到 来 ,信息 成 为 可 生产 交换、 传播 的 商品 。 个 人 电脑 .互联 网 .浏览 器 .搜索 引擎 、 智 
能 手机 、 社 交 网 络 .可 穿戴 设备 .3D 打印 比 过 去 基于 蔡伦 、 毕 升 . 古 登 保 时 代 ,传统 印刷 更 为 
丰富 、 多 元 有效。 不 到 半 个 世纪 ,人 类 存储 的 数据 量 以 指数 级 在 增长 ,数据 传输 速度 从 数 天 
缩短 到 数 毫秒 ,提升 达 9 个 数量 级 ,成 为 全 球 拥 有 、 共 享 、 传 播 的 大 数据 海量 信息 。 随 着 全 球 
大 数据 \ 物 联网 、 云 计算 .移动 社交 网 络 等 信息 网 络 新 技术 的 普及 ,推动 世界 数字 经 济 呈 指数 
增长 ,人 类 社会 信息 化 进入 大 数据 时 代 。 

然而 ,数据 规模 如 此 之 大 ,数据 结构 如 此 复杂 数据 传播 如 此 之 快 ,已 经 远 远 超过 了 目前 
政府 或 企业 在 数据 采集 、 存 储 、 处 理 和 分 析 、 管 理 和 应 用 方面 的 能 力 。 企 业 如 何 发 现 数 据 的 
价值 ? 如 何 利用 数据 产生 效益 ?大 多 数 企业 还 是 手足 无 措 。 

本 书 通过 大 数据 管理 理论 框架 与 生态 系统 .数据 科学 与 数据 工程 两 大 部 分 ,基本 上 覆盖 
了 数据 起 源 .数据 架构 (基础 设施 .数据 采集 、 存 储 、 分 析 处 理 . 可 视 化 应用,` 运 维 . 安 全 和 隐 
私 ) 数据 整合 与 交换 及 交易 .大 数据 管理 与 治理 .数据 创新 与 数据 科学 .重点 行业 应 用 等 。 
全 面 解决 了 大 数据 如 何 应 用 和 价值 发 现 的 过 程 。 

大 数据 成 为 全 球 重要 的 战略 资源 和 核心 资产 。 大 数据 时 代 , 各 国 对 数据 的 依赖 快速 上 
升 ,国家 竞争 焦点 已 经 从 资本 .土地 .人 口 ,资源 的 争夺 转向 了 对 大 数据 的 争夺 ,对 大 数据 的 
开发 .利用 与 保护 的 竞争 日 趋 激烈 , 制 数 权 成 为 继 制 陆 权 、 制 海 权 、 制 空 权 之 后 的 新 制 权 。 大 
数据 使 得 强国 与 弱 国 不 再 以 经 济 规模 和 经 济 实力 论 英雄 ,而 是 取决 于 一 国 大 数据 能 力 的 
优 劣 。 

借助 大 数据 革命 ,美国 等 发 达 国 家 全 球 数据 监控 能 力 升级 ,美国 先后 推出 (网 络 空间 国 
际 战 略 兴 网 络 空间 国际 行动 》 等 重要 战略 规划 ,确保 自身 在 网 络 和 数据 空间 的 主导 地 位 。 

中 共 中 央 十 八 届 五 中 全 会 提出 ,要 拓展 发 展 新 空间 ,实施 网 络 强国 战略 ,实施 “互联 
网 十 ”行动 计划 ,发展 分 享 经 济 ,实施 国 家 大 数据 战略 。 国 务 院 通过 (关于 促进 大 数据 发 展 的 
行动 纲要 ) 为 未 来 中 国 的 大 数据 发 展 指明 了 方向 。 

据 统计 ,2015 年 全 球 信息 社会 指数 为 0.5494, 正 在 从 工业 社会 向 信息 社会 加 速 转型 , 专 
家 预计 人 类 2018 年 进入 信息 社会 。 中 国 互联 网 经 济 占 GDP 比重 4.4% ,已 超过 美国 法国 
和 德国 ,达到 全 球 领 先 国家 水 平 。 要 实现 两 个 百年 发 展 目标 ,2021 年 中 国人 均 信息 消费 将 
接近 1000 美元 ,2049 年 中 国人 均 信息 消费 将 超过 3000 美元 ,成 为 世界 最 大 的 信息 经 济 体 。 
2013 年 中 国 大 数据 产业 市 场 规模 为 34. 3 亿 元 ,同比 增长 率 超 100% ,未 来 一 段 时 间 将 持续 
快速 增长 。2014 年 7 月 ,麦肯锡 全 球 研究 员 发 布 的 (中 国 的 数字 化 转型 : 互联 网 对 生产 力 与 
增长 的 影响 》 预 测 : 2013 到 2025 年 ,互联 网 将 占 到 中 国 经 济 年 增长 率 的 0.3%~1.0%, 互 





也 大 数据 -数据 管理 与 数据 工程 


联网 将 可 能 在 中 国 GDP 增长 总 量 中 贡献 7% 一 22% ,我 国正 从 数据 大 国 向 数据 强国 过 渡 。 
中 国 作为 世界 最 大 的 发 展 中 国家 ,能 否 吸取 工业 革命 中 "落后 挨打 ”的 悲剧 教训 ,在 全 球 
化 信息 网 络 时 代 跨 越 中 等 收入 国家 陷阱 和 修 昔 底 德 陷阱 ? 中 国 能 和 否 在 这 次 全 球 信息 革命 浪 
潮 中 抢占 先 机 、 立 于 不 败 之 地 ?能 否 实现 中 华 民族 伟大 复兴 的 中 国 梦 、 两 个 百年 目标 ? 
我 国 必须 要 紧 抓 大 数据 技术 发 展 机 遇 , 正 如 本 书 所 述 ,建立 起 大 数据 标准 体系 数据 科 
学 理论 体系 ,标准 化 大 数据 治理 体系 ,实现 弯 道 超车 快速 崛起 ,成 为 全 球 最 大 信息 经 济 体 的 
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致 读者 


TO THE READER 一 人 


大 数据 历经 几 年 的 发 展 ,在 全 球 已 进入 了 高 速 发 展期 。 我 国 “ 十 三 五 ”规划 正式 将 大 数 
据 上 升 为 国家 战略 ,当前 全 国 各 省 市 级 和 地 区 级 城市 正在 制定 大 数据 发 展 战略 和 实施 规划 ， 
中 国正 在 创造 一 个 万 亿 级 的 大 数据 市 场 。 在 此 期 间 , 笔 者 2014 年 编著 了 《大 数据 革命 一 
理论 、 模 式 与 技术 创新 )，2015 年 又 出 版 了 大 数据 的 技术 教材 (架构 大 数据 一 一 大 数据 技术 
与 算法 解析 》。 在 大 数据 产业 发 展 上 ,以 成 都 为 基地 ,成 立 大 数据 协会 和 联盟 ,如 四 川 大 数据 
产业 联盟 、 中 国 西部 互联 网 与 大 数据 产业 协会 等 ,提供 大 数据 人 才 培 训 和 培养 .政府 大 数据 
产业 规划 和 企业 转型 升级 咨询 。 成 立 第 五 维 国际 大 数据 孵化 器 ,通过 和 硅谷 孵化 器 合作 ,为 
大 数据 创业 团队 提供 导师 .技术 办公 场地 和 资金 等 全 方位 的 孵化 服务 。 在 大 数据 产品 研发 
上 ,以 清 数 科技 公司 为 依托 ,开发 了 Neo 大 数据 一 体 “ 傻 瓜 机 ”, 把 数据 从 采集 ,存储 、 处 理 、 
分 析 和 挖掘 、 可 视 化 和 应 用 服务 全 部 集成 部 署 到 一 体 机 服务 器 中 ,让 政府 和 企业 拥有 “ 开 箱 
即 得 ”的 大 数据 分 析 处 理 能 力 , 方 便 了 用 户 的 操作 使 用 。 

本 书 正 是 笔者 在 大 数据 产品 研发 和 产业 落地 基础 上 的 理论 升华 和 管理 思考 。 笔 者 预 
测 , 中 国 的 大 数据 产业 将 在 明年 中 期 迎 来 应 用 的 全 面 爆 发 ,大 数据 的 平台 分 析 、 应 用 类 的 产 
品 和 服务 将 供不应求 。 而 大 数据 交换 和 交易 的 市 场 , 随 着 国务 院 制定 的 政府 数据 开放 日 程 
的 临近 (《 大 数据 发 展 行动 纲要 》 要 求 各 部 委 数 据 在 2018 年 底 完成 开放 ) ,也 将 在 两 年 后 成 为 
大 数据 产业 的 最 大 的 市 场 ,数据 资产 .数据 产品 .数据 服务 都 会 带 来 巨额 的 财富 。 本 书 正 是 
顺应 大 数据 发 展 趋势 ,重点 曾 述 了 大 数据 生态 系统 、 大 数据 管理 ,数据 交换 、 共 享 、 交 易 等 理 
论 体系 ,数据 科学 理论 和 大 数据 行业 应 用 实践 ,以 及 相应 的 大 数据 标准 体系 ; 全 面 系统 地 阅 
述 了 大 数据 体系 建设 和 工程 实践 ,真正 挖掘 和 实现 了 大 数据 的 价值 。 本 书 内 容 主 要 围绕 大 
数据 应 用 热点 和 重点 行业 展开 分 析 , 如 医疗 环保, 社交、 金融 .工业 制造 等 ,这 些 理论 实践 同 
时 也 适用 于 教育 ,政务 .交通 .能源 、 航 空 ` 农 业 、 旅 游 等 行业 的 发 展 应 用 。 总 结 出 了 大 数据 管 
理 创新 方法 论 和 工程 实践 经 验 , 为 中 国 大 数据 产业 发 展 和 创新 生态 链 打 造 莫 定 了 理论 和 实 
践 基础 。 

众所周知 ,从 上 届 美 国 总 统 的 选举 到 本 届 美 国 总 统 选 举 , 无 疑 都 是 大 数据 应 用 的 最 好 例 
证 。 本 届 选 举 演变 成 了 和 希拉 里 和 特 朗 普 背 后 的 大 数据 团队 的 生死 角力 。 双 方 都 拥有 阵容 强 
大 的 大 数据 团队 ,服务 于 特 朗 普 的 Deep Root Analytics( 深 根 分 析 ) 公 司 和 英国 的 剑桥 分 析 
公司 采取 的 是 类 似 于 精准 广告 投放 的 技术 ,分析 摇 摆 投 票 者 们 的 意识 形态 、 价 值 观 以 及 他 们 
喜欢 的 信息 接收 方式 和 渠道 ,然后 针对 他 们 制定 竞选 演说 ,拉票 方式 和 信息 传递 方式 ,最 终 
帮助 特 朗 普 问 易 美 国 总统 宝 座 。 尽 管 是 在 被 业界 称 为 投资 寒冬 的 大 环境 下 ,大 数据 以 及 人 
工 智 能 还 是 在 美国 硅谷 和 中 国 的 投资 圈 刮 起 一 股 旋风 , 数 百 家 相关 的 大 数据 企业 都 顺利 拿 
到 了 投资 。 大 数据 应 用 成 为 产业 聚焦 的 热点 。 

本 书 的 编写 得 到 了 很 多 协会 和 清 数 的 同事 们 的 支持 和 帮助 ,尤其 是 李小龙 ,张晓东 、 唐 


外 ee 让 全 人 全 站 下 站 全 在 全 
犀 、 赵 虎 、 腾 雨 樟 , 还 有 电子 科技 大 学 极限 网 络 计 算 与 服务 实验 室 的 同学 们 ,他们 为 本 书 收集 
了 大 量 的 资料 ,并 提供 了 很 多 的 内 容 。 我 也 要 感谢 我 的 家 人 们 对 我 的 鼓励 和 支持 ,很 多 节 假 
日 都 没 能 陪同 她 们 。 
本 书 由 于 笔者 的 知识 和 经 验 有 限 , 存 在 的 路 漏 敬 请 读者 原谅 ,也 欢迎 与 我 们 联系 ,我 们 
一 起 为 中 国 的 大 数据 事业 贡献 力量 ,谢谢 大 家 。 
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大 数据 是 云 计 算 、 物 联网 、 移 动 互联 网 .智慧 城市 等 新 技术 、 新 模式 发 展 的 必然 产物 ,也 
必 将 对 网 络 通信 (ICT) 和 物 联网 (IOT) 产 业 产 生 深远 的 影响 。 大 数据 技术 的 发 展 与 应 用 ， 
将 对 社会 的 组 织 结构 ` 经 济 运行 机 制 , 社 会 生活 方式 .国家 的 治理 模式 、 企 业 的 决策 架构 、. 商 
业 的 业务 策略 以 及 个 人 的 生活 .工作 和 思维 方式 等 产生 深远 的 影响 。 随 着 社会 网 络 安全 \ 应 
急 管理 .医疗 健康 、 经 济 金融 、 交 通 运输 .制造 领域 .社交 社区 等 各 个 领域 大 量 数据 的 使 用 ,对 
于 我 们 而 言 ,能 够 及 时 、 有 效 地 了 解数 据 和 信息 的 意义 ,进而 改善 决策 制定 的 过 程 将 变 得 万 
为 重要 。 大 数据 的 价值 必 将 对 现代 企业 的 管理 运作 理念 ,市 场 营 销 决策 以 及 消费 者 行为 模 
式 等 产生 巨大 影响 ,使 得 企业 商务 管理 决策 越 来 越 依赖 于 数据 分 析 而 非 经 验 甚至 直觉 。 因 
而 ,大 数据 也 必 将 对 这 种 传统 的 商业 模式 进行 近乎 彻底 的 颠覆 与 模式 的 重 构 。 

当前 ,美国 ,日 本 、 法 国 、 韩 国 \ 澳 大 利 亚 等 国家 相继 启动 了 推动 大 数据 产业 发 展 的 政策 
改革 ,并 把 大 数据 产业 发 展 纳入 国家 发 展 战略 ,通过 有 力 的 资金 和 政策 支持 加 强大 数据 研 
究 , 优 化 其 发 展 环境 ,抢占 大 数据 产业 发 展 的 制高点 ,使 其 成 为 推动 国民 经 济 社会 发 展 的 新 
手段 。 鉴 于 发 达 国 家 对 大 数据 产业 的 强力 推动 ,大 数据 在 经 济 、 国 家 安全 、 社 会 .科研 等 方面 
的 巨大 价值 和 适应 经 济 社会 发 展 的 要 求 , 中 国 各 级 政府 和 社会 各 界 也 纷纷 制定 相关 政策 推 
动 大 数据 产业 深入 发 展 ,运用 大 数据 推动 经 济 发 展 、 完 善 社会 治理 ,提升 政府 服务 和 监管 能 
力 正成 为 趋势 ,我 国 相继 制定 实施 大 数据 战略 性 文件 ,大 力 推动 大 数据 发 展 和 应 用 。 目 前 ， 
我 国 互联 网 、 移 动 互联 网 用 户 规模 居 全 球 第 一 ,拥有 丰富 的 数据 资源 和 应 用 市 场 优势 ,大 数 
据 部 分 关键 技术 研发 取得 突破 ,涌现 出 一 批 互 联网 创新 企业 和 创新 应 用 ,一 些 地 方 政府 已 启 
动 大 数据 相关 工作 。 坚 持 创新 驱动 发 展 ,加 快 大 数据 部 署 ,深化 大 数据 应 用 ,已 成 为 稳 增 长 、 
促 改革 、 调 结构 、 惠 民生 和 推动 政府 治理 能 力 现代 化 的 内 在 需要 和 必然 选择 。 

我 们 认为 大 数据 的 发 展 必 将 经 历 三 个 重要 的 阶段 。@* 技 术 驱 动 型 "*。 大 数据 的 核心 关 
键 技术 正在 加 速 发 展 和 快速 迭代 ,技术 体系 框架 也 已 日 趋 成 熟 ,基本 能 够 满足 产业 发 展 需 
求 ,比如 Hadoop 生态 框架 系统 。 大 数据 架构 体系 分 为 基础 设施 、 采 集 、 存 储 、 处 理 、 分 析 、 应 
用 、 安 全 和 维护 几 个 方面 。@* 行 业 驱 动 型 *。 各 大 解决 方案 服务 商 围 绕 电 信 、 环 保 、 金 融 、 交 
通 、 医 疗 、 政 府 教育、 工业 城市 管理 ,社交 网 络 等 重点 行业 领域 描绘 美好 蓝图 ,力求 推动 行 
业 应 用 ,如 节能 环保 产业 布局 了 高 效 储 能 ,节能 监测 和 能 源 计 量 ; 生物 医药 产业 布局 了 生物 
资源 样本 库 、 基 因 测 序 ,以 及 基于 物 联网 的 远程 健康 管理 服务 等 。 这 一 阶段 发 展 虽 然 还 有 距 
离 , 但 这 一 转变 过 程 正在 加 速 进行 。@ “模式 驱动 型 *。 大 数据 行业 应 用 深化 发 展 ,使 得 领域 
和 行业 边界 愈加 模糊 ,商业 模式 应 用 创新 超越 技术 本 身 , 企 业 以 独特 数据 资源 进行 的 整合 朝 着 
纵向 产业 链 上 下 游 整合 和 横向 多 种 产业 整合 两 个 方向 发 展 ,生产 模式 向 服务 化 转变 ,数据 作为 
一 种 资产 资源 为 企业 带 来 新 的 商业 价值 ,数据 开放 为 政府 治理 和 个 人 福 社 都 带 来 新 的 机 遇 。 

从 大 数据 系统 论 的 角度 ,可 以 将 大 数据 划分 为 大 数据 技术 、 大 数据 管理 、 大 数据 科学 和 
大 数据 工程 ,本 书 重点 围绕 大 数据 管理 和 大 数据 工程 两 部 分 展开 阐述 。 

















大 数据 -数据 管理 雪 所 I 程 

第 一 部 分 介绍 大 数据 管理 理论 框架 和 生态 系统 , 共 分 为 6 章 ,主要 内 容 有 : 数据 时 代 背 
景 , 大 数据 定义 .特征 .数据 结构 .度量 价值 .数据 管理 与 技术 和 大 数据 科学 与 工程 研究 方向 
以 及 大 数据 生态 系统 ; 国内 外 大 数据 战略 和 大 数据 应 用 的 商业 模式 变革 ; 大 数据 平台 架构 
体系 自 下 而 上 包括 基础 设施 ,数据 采集 、 数 据 存储 、 数 据 处 理 、 数 据 可 视 化 、 大 数据 应 用 、 运 维 
和 数据 安全 ; 大 数据 平台 整合 、 大 数据 与 存储 、 大 数据 与 网 络 、 大 数据 与 虚拟 化 技术 整合 .大 
数据 环境 的 数据 整合 ,大 数据 交换 和 数据 交易 ; 大 数据 流程 管理 ,大 数据 事务 管理 ,大 数据 
技术 管理 以 及 大 数据 质量 管理 阐述 ; 最 后 提出 大 数据 创新 理论 指标 体系 、 大 数据 创新 重要 
环节 和 大 数据 创新 最 佳 实践 。 该 部 分 章节 框架 清晰 .结构 分 明 .逻辑 严 谨 、. 层 次 有 序 .概念 明 
确 、 重 点 突出 ,体系 完整 ,形成 整个 大 数据 技术 管理 体系 。 

第 二 部 分 介绍 数据 科学 和 数据 工程 内 容 , 共 分 为 7 章 , 主 要 内 容 有 : 数据 科学 概念 、 研 
究 重要 角色 .生命 周 期 管理 .数据 仓库 .数据 挖掘 分 析 方法 .知识 发 现 及 大 数据 处 理 平 台 , 通 
过 建立 科学 系统 的 数据 分 析 方 法 论 ,指导 数据 工程 实践 ; 在 数据 工程 方面 ,重点 介绍 医疗 行 
业 大 数据 .环保 行业 大 数据 .移动 社交 大 数据 .金融 行业 大 数据 和 工业 制造 大 数据 等 几 个 热 
点 行业 数据 工程 实践 ,每 个 行业 又 侧重 大 数据 应 用 的 不 同 角度 ,总 体 上 全 面 解析 大 数据 应 用 
的 多 个 方面 ; 医疗 健康 主要 包括 总 体 架构 (业务 架构 ,技术 架构 和 网 络 架 构 )、 医 疗 大 数据 存 
储 处 理 、 容 灾 备 份 解决 方案 和 医疗 大 数据 分 析 等 ; 环保 行业 包括 环保 物 联 网 架构 .电力 脱硫 
工作 原理 ,电力 脱硫 数据 分 析 优 化 目标 以 及 空气 质量 大 数据 分 析 评 价 体系 ; 移动 社交 包括 
发 展 趋 势 ,社交 理论 ,社交 网 络 商 业 模 式 、 社 交 网 络 平台 以 及 社交 网 络 数 据 分 析 ; 金融 行业 
包括 金融 大 数据 特征 .发展 机 会 ,总体 架 构 ( 业 务 架 构 .技术 架构 和 网 络 架 构 ) .金融 大 数据 风 
仿 管 理 平台 、 大 数据 征 信 、 大 数据 反 欺 诈 、 大 数据 精准 营销 以 及 大 数据 带 来 的 产业 变革 ; 工 
业 大 数据 通过 回顾 全 球 工业 信息 化 发 展 历程 和 现状 ,提出 了 中 国 制造 2025 发 展 战略 ,同时 
指出 工业 信息 技术 集成 和 协同 发 展 方向 ,利用 工业 信息 化 应 用 系统 搭建 工业 大 数据 架构 体 
系 ( 业 务 架 构 、 技 术 架 构 和 安全 架构 )、 智 能 化 协同 制造 架构 原理 ,最 终 实现 智能 化 协同 制造 
服务 。 工 业 是 国民 经 济 的 基础 ,工业 的 未 来 也 是 我 国 经 济 发 展 的 未 来 。 最 后 提出 大 数据 工 
程 保障 体系 建设 ,包括 法 律 体系 建设 .标准 体系 建设 .标准 化 大 数据 治理 体系 建设 .技术 和 应 
用 研究 .创新 平台 建设 等 ,该 部 分 章节 充分 体现 了 理论 性 、. 科 学 性 .创新 性 .实用 性 .经济 性 、 
社会 性 .标准 性 、 保 障 性 和 完整 性 ,形成 了 数据 科学 和 数据 工程 体系 。 

本 书 是 作者 和 在 大 数据 研究 领域 非常 有 名 望 的 赵勇 博士 共同 编写 而 成 的 。 书 中 的 
第 3 一 6 童 来 源 于 赵勇 博士 研究 成 果 , 其 他 是 作者 多 年 来 对 物 联网 、 云 计算 和 大 数据 的 研究 、 
咨询 和 应 用 实践 经 验 的 智慧 结晶 ,同时 也 是 在 清华 大 学 继续 教育 学 院 致力 于 智慧 城市 规划 
设计 和 企业 管理 咨询 工作 经 验 的 积累 。 和 希望 本 书 将 我 们 多 年 从 事 于 大 数据 研究 方面 的 成 果 
展现 给 读者 ,本 书 可 以 作为 企业 管理 者 .数据 科学 研究 工作 者 .首席 信息 官 等 的 参考 资料 ,也 
可 以 作为 企业 管理 .计算 机 、 软 件 工程 等 相关 专业 学 生 教材 使 用 。 

本 书 在 撰写 的 过 程 中 ,得 到 了 清华 大 学 ,北京 大 学 多 位 老师 ,清华 大 学 数据 研究 院 和 行 
业 同 仁 的 资料 提供 和 支持 帮助 ,在 此 表示 衷心 的 感谢 ! 也 感谢 我 的 家 人 给 予 我 莫大 的 支持 
和 鼓励 ,使 我 顺利 完成 写作 。 大 数据 发 展 日 新 月 异 , 相 关 技 术 快 速 发 展 ,由 于 我 们 对 大 数据 
的 理解 和 知识 水 平 都 有 局 限 , 书 中 玻 漏 或 不 足 之 处 在 所 难免 , 敬 请 读者 批评 指正 。 
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第 一 部 分 大 数据 管理 理论 框架 
与 生态 系统 


大 数据 管理 理论 框架 和 生态 系统 部 分 共 分 为 6 章 , 主 要 内 容 有 : 大 数据 时 
代 背 景 、 大 数据 定义 、 特 和 证、 数据 结构 .度量 价值 .数据 管理 和 技术 .大 数据 科学 
和 工程 研究 方向 以 及 大 数据 生态 系统 ; 国内 外 大 数据 战略 和 大 数据 应 用 的 商业 
模式 变革 ; 大 数据 平台 架构 体系 自 下 而 上 包括 基础 设施 .数据 采集、 数据 存储 、 
数据 处 理 . 数 据 可 视 化 ,大 数据 应 用 、 运 维和 数据 安全 ; 大 数据 平台 整合 ,大 数据 
与 存储 、 大 数据 与 网 络 、 大 数据 与 虚拟 化 技术 整合 、 大 数据 环境 的 数据 整合 \、 大 
数据 交换 和 数据 交易 ; 大 数据 流程 管理 ,大 数据 事务 管理 ,大 数据 技术 管理 以 及 
大 数据 质量 管理 阅 述 ; 最 后 提出 大 数据 创新 理论 指标 体系 、 大 数据 创新 重要 环 
节 和 大 数据 创新 最 佳 实践 。 


大 数据 概述 


使 -ee-e 


第 1 章 


令 一 人 人 


大 数据 (Big Data) 已 经 成 为 人 们 耳熟能详 的 热点 词汇 ,无 论 如 何 大 数据 都 与 人 们 每 天 
发 生 着 密切 的 关系 。 互 联网 、 微 信 、 邮 件 、 微 博 、 电 话 、 导 航 、 无 所 不 在 的 监控 和 传感器 等 ,无 
不 表明 我 们 已 经 进入 物 联 网 大 数据 时 代 。 随 着 社会 网 络 安全 、 应 急 管理 医疗 健康 、 经 济 金 
融 、 交 通 运输 ,工业 制造 ,社交 社区 等 各 个 领域 大 量 数据 的 使 用 ,对 于 我 们 而 言 ,能 够 及 时 有 
效 地 了 解数 据 和 信息 的 意义 ,来 改善 决策 制定 的 过 程 将 变 得 尤为 重要 。 大 数据 是 云 计算 、 物 
联网 、 移 动 互联 网 .智慧 城市 等 新 技术 、 新 模式 发 展 的 必然 产物 ,也 必 将 对 网 络 通信 (ICT) 和 
物 联网 (IOT) 产 业 产生 深远 的 影响 。 大 数据 技术 的 发 展 与 应 用 ,将 对 社会 的 组 织 结构 .国家 
的 治理 模式 企业 的 决策 架构 .商业 的 业务 策略 以 及 个 人 的 生活 、 工 作 和 思维 方式 等 产生 深 
远 的 影响 。 


1.1 大 数据 时 代 


随 着 以 博客 .社交 网 络 .基于 位 置 的 服务 等 为 代表 的 新 型 信息 发 布 方式 的 不 断 涌现 ， 
以 及 云 计算 、 物 联网 等 技术 的 兴起 ,数据 正 以 前 所 未 有 的 速度 在 不 断 地 增长 和 累积 ,大 数 
据 时 代 已 经 来 到 学 术 界 、 工 业界 甚至 政府 机 构 都 已 经 开始 密切 关注 大 数据 问题 ,并 对 其 
产生 浓厚 的 兴趣 。 就 学 术 界 而 言 , Nature 早 在 2008 年 就 推出 了 Big Data 专刊 ; 计算 社区 
联盟 (Computing Community Consortium) 在 2008 年 发 表 了 报告 Big data computing : 
Creating revolutionary breakthroughs in commerce ,science ,wand society ,阐述 了 在 数据 驱动 
的 研究 背景 下 ,解决 大 数据 问题 所 需 的 技术 以 及 面临 的 一 些 挑战 。Science 在 2011 年 2 月 
推出 专刊 Dealing with Data ,主要 围绕 着 科学 研究 中 大 数据 的 问题 展开 讨论 ,说 明 大 数据 
对 于 科学 研究 的 重要 性 。 美 国 一 些 知名 的 数据 管理 领域 的 专家 学 者 则 从 专业 的 研究 角度 出 
发 ,联合 发 布 了 一 份 白皮书 Challenges and opportunities with Big Data 。 该 白皮书 从 学 术 
的 角度 出 发 介绍 了 大 数据 的 产生 ,分 析 了 大 数据 的 处 理 流程 ,并 提出 大 数据 所 面临 的 若干 
挑战 。 

全 球 知 名 的 咨询 公司 麦肯锡 (McKinsey) 于 2011 年 6 月 发 布 了 一 份 关 于 大 数据 的 详尽 
报告 Big data: Thenezt frontier or innovation,competition,and productivity ,对 大 数据 
的 影响 ,关键 技术 和 应 用 领域 等 都 进行 了 详尽 的 分 析 。2012 年 以 来 ,人 们 对 大 数据 的 关注 
度 与 日 俱 增 。2012 年 1 月 份 的 达 沃 斯 世界 经 济 论坛 上 ,大 数据 是 主题 之 一 ,该 次 会 议 还 特 
别针 对 大 数据 发 布 了 报告 Big data. big impact: New possibilities or international 
development ,探讨 了 新 的 数据 产生 方式 下 ,如 何 更 好 地 利用 数据 来 产生 良好 的 社会 效益 。 
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该 报告 重点 关注 了 个 人 产生 的 移动 数据 与 其 他 数据 的 融合 与 利用 。2012 年 3 月 份 美国 奥 
巴 马 政府 发 布 了 “大 数据 研究 和 发 展 倡议 ”(Big data research and development initiative)， 
投资 两 亿 以 上 美元 ,正式 启动 大 数据 发 展 计 划 ”。 计 划 在 科学 研究 、 环 境 、 生 物 医学 等 领域 
利用 大 数据 技术 进行 突破 。 奥 巴 马 政府 的 这 一 计划 被 视 为 美国 政府 继 信息 高 速 公 路 
(Information Highway) 计 划 之 后 在 信息 科学 领域 的 又 一 重大 举措 。 与 此 同时 ,联合 国 一 个 
名 为 Global Pulse 的 倡议 项 目 在 2012 年 5 月 发 布 报告 Big data for development: 
Challenges & opportunities ,该 报告 主要 阐述 大 数据 时 代 各 国 特别 是 发 展 中 国家 在 面临 数 
据 洪流 的 情况 下 所 遇 到 的 机 遇 与 挑战 ,同时 还 对 大 数据 的 应 用 进行 了 初步 的 解读 。 《纽约 时 
报 》 的 文章 The age of big data 则 通过 主流 媒体 的 宣传 使 普通 民众 开始 意识 到 大 数据 的 存 
在 ,以 及 了 解 大 数据 对 于 人 们 日 常生 活 的 影响 。 

我 国正 处 于 工业 化 向 信息 化 发 展 的 转型 时 期 ,信息 的 公开 .共享 与 服务 成 为 时 代 发 展 的 
主题 。 信 息 逐 渐 成 为 与 物质 和 能 源 同等 重要 的 资源 ,以 开发 和 利用 信息 资源 为 目的 的 经 
济 活动 迅速 扩大 ,逐渐 占据 或 超越 工业 活动 在 国民 经 济 活动 中 的 地 位 。 大 数据 的 出 现 是 
跨 学 科技 术 与 应 用 发 展 的 结果 。 对 于 大 数据 ,自然 科学 家 强调 在 网 络 虚拟 环境 下 对 于 密 
集 型 数据 的 研究 方法 ,社会 科学 家 则 看 重 密集 型 数据 后 面 隐藏 的 价值 与 推动 社会 发 展 的 
模式 。 

党 中 央 、 国 务 院 高 度 重视 大 数据 发 展 。 党 的 十 八 届 五 中 全 会 明确 提出 “十 三 五 ”时 期 要 
“拓展 网 络 经 济 空间 。 实 施 ' 互 联网 十 "行动 计划 ,发 展 物 联网 技术 和 应 用 ,发 展 分 享 经 济 , 促 
进 互联 网 和 经 济 社会 融合 发 展 。 实 施 国家 大 数据 战略 ,推进 数据 资源 开放 共享 ”国务院 ( 促 
进 大 数据 发 展 行动 纲要 》( 国 发 2015】50 号 ) 明 确 指 出 要 “建立 标准 规范 体系 。 推 进 大 数据 
产业 标准 体系 建设 ,加 快 建立 政府 部 门 、 事 业 单位 等 公共 机 构 的 数据 标准 和 统计 标准 体系 ， 
推进 数据 采集 、 政 府 数据 开放 、 指 标 口 径 、 分 类 目录 ,交换 接口 .访问 接口 .数据 质量 、 数 据 交 
易 、 技 术 产 品 、 安 全 保密 等 关键 共性 标准 的 制定 和 实施 。 加 快 建立 大 数据 市 场 交 易 标 准 体 
系 。 开 展 标 准 验证 和 应 用 试点 示范 ,建立 标准 符合 性 评估 体系 ,充分 发 挥 标 准 在 培育 服务 市 
场 .提升 服务 能 力 、 支 撑 行 业 管 理 等 方面 的 作用 。 积 极 参 与 相关 国际 标准 制定 工作 ”。 


1.2 什么 是 大 数据 


1.2.1 大 数据 定义 


大 数据 本 身 是 一 个 宽泛 的 概念 ,业界 尚未 给 出 统一 的 定义 ,不 同 的 研究 机 构 、 公 司 从 不 
同 的 角度 诠释 了 什么 是 大 数据 。 

2011 年 ,美国 著名 的 咨询 公司 麦肯锡 (Mckinsey) 在 研究 报告 (大 数据 的 下 一 个 前 沿 : 
创新 、 竞 争 和 生产 力 ) 中 给 出 了 大 数据 的 定义 : 大 数据 是 指 大 小 超出 了 典型 数据 库 软件 工 
有 具 收集 、 存 储 、 管 理 和 分 析 能 力 的 数据 集 。 根 据 Gartner 的 定义 ,大 数据 是 需要 新 处 理 模 
式 才能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信 
息 资产 。 

美国 国家 标准 技术 研究 所 (National Institute of Standards and Technology. NIST) 的 
大 数据 工作 组 在 (大 数据 : 定义 和 分 类 ) 中 认为 : 大 数据 是 指 那些 传统 数据 架构 无 法 有 效 处 
理 的 新 数据 集 。 因 此 ,采用 新 的 架构 来 高 效率 完成 数据 处 理 , 这 些 数据 集 特征 包括 : 容量 、 
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数据 类 型 的 多 样 性 、 多 个 领域 数据 的 差异 性 、 数 据 的 动态 特征 (速度 或 流动 率 ,可 变性 )。 

维基 百科 (Wikipedia) 给 出 的 定义 是 : 大 数据 ,或 称 巨 量 数据 ` 海 量 数据 ,大 资料 , 指 的 
是 所 涉及 的 数据 量规 模 巨 大 到 无 法 通过 人 工 在 合理 时 间 内 达到 截取 、 管 理 、 处 理 并 整理 成 为 
人 类 所 能 解读 的 信息 。 

百度 百科 给 出 的 定义 是 : 大 数据 ,或 称 巨 量 资料 , 指 的 是 所 涉及 的 资料 量规 模 巨大 到 无 
法 通过 目前 主流 软件 工具 ,在 合理 时 间 内 达到 撒 取 管理 处理 并 整理 成 为 帮助 企业 经 营 决 
策 更 积极 目的 的 资讯 。 

亚马逊 网 络 服务 (AWS) 大 数据 科学 家 John Rauser 在 2011 年 提 到 一 个 简单 的 大 数据 
定义 : 任何 超过 了 一 台 计 算 机 处 理 能 力 的 庞大 数据 量 。 

EMC 公司 给 出 的 定义 是 : 数据 集 或 信息 , 它 的 规模 、 发 布 .位 置 在 不 同 的 孤岛 上 ,或 它 
的 时 间 线 要 求 客户 部 署 新 的 架构 来 捕捉 、 存 储 、 整 合 、 管 理 和 分 析 这 些 信息 以 便 实现 企业 
价值 。 


1.2.2 大 数据 特征 


对 大 数据 的 完整 理解 应 包含 三 个 方面 : 数据 特征 、 技 术 特 征 与 应 用 特征 。 本 书 主要 从 
大 数据 的 数据 特征 来 描述 ,业界 通常 引用 国际 数据 公司 IDC 定义 的 4V 来 描述 。 

(1) 数据 类 型 繁多 (Variety) : 除了 结构 化 数据 外 ,大 数据 还 包括 各 类 非 结构 化 数据 , 例 
如 文本 音频、 视频 ,点 击 流量 ,文件 记录 等 ,以 及 半 结 构 化 数据 ,例如 电子 邮件 .办 公 处 理 文 
档 等 。 

(2) 处 理 速度 快 (Velocity): 通常 具有 时 效 性 ,企业 只 有 把 握 好 对 数据 流 的 掌控 应 用 ， 
才能 最 大 化 地 挖掘 利用 大 数据 所 潜藏 的 商业 价值 。 

(3) 数据 体 量 巨大 (Volume): 虽然 对 各 大 数据 量 的 统计 和 预测 结果 并 不 完全 相同 ,但 
是 都 一 致 认为 数据 量 将 急剧 增长 。 

(4) 数据 价值 (Value): 从 海量 价值 密度 低 的 数据 中 挖掘 出 具有 高 价值 的 数据 。 这 一 
特性 突出 表现 了 大 数据 的 本 质 是 获取 数据 价值 ,关键 在 于 商业 价值 , 即 如 何 有 效 利 用 好 这 些 
数据 。 

阿姆斯特丹 大 学 的 Yuri Demchenko 等 人 提出 了 大 数据 体系 架构 框架 的 5V 特征 ,如 
图 1-1 所 示 , 它 在 上 述 4V 的 基础 上 ,增加 了 真实 性 (Veracity) 特 征 。 真 实 性 特征 中 包括 可 
信 性 、 真 伪 性 、 来 源 和 信誉 有 效 性 和 可 审计 性 子 特征 。 


1.2.3 大 数据 结构 类 型 


按照 数据 结构 ,数据 分 为 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 。 结 构 化 数据 是 存 
储 在 数据 库 里 、 可 以 用 二 维 表 结 构 来 逻辑 表达 实现 的 数据 。 相 对 于 结构 化 数据 (即行 数据 ， 
存储 在 数据 库 里 ,可 以 用 二 维 表 结 构 来 逻辑 表达 实现 的 数据 ) 而 言 , 不 方便 用 数据 库 二 维 逻 
辑 表 来 表现 的 数据 即 称 为 非 结构 化 数据 ,包括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 、 XML、 
HTML ,各 类 报表 、 图 像 和 音频 /视频 信息 等 。 

所 谓 半 结 构 化 数据 ,就 是 介 于 完全 结构 化 数据 (如 关系 型 数据 库 、 面 向 对 象 数 据 库 中 的 
数据 ) 和 完全 无 结构 的 数据 (如 声音 、 图 像 文 件 等 ) 之 间 的 数据 ,HTML 文档 就 属于 半 结 构 化 
数据 。 它 一 般 是 自 描述 的 ,数据 的 结构 和 内 容 混 在 一 起 ,没有 明显 的 区 分 。 
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图 1-1 大 数据 5V 特征 


表 1-1 对 大 数据 数据 结构 类 型 从 多 个 角度 进行 了 区 分 。 
表 1-1 大 数据 数据 结构 类 型 区 分 





























区 别 ee 
结构 化 数据 非 结构 化 数据 半 结 构 化 数据 

描述 包括 预定 义 的 数据 类 型 . 格 | 没有 固定 结构 的 数据 ,通常 | 具有 可 识别 的 模式 并 可 
式 和 结构 的 数据 保存 为 不 同类 型 的 文件 以 解析 的 文本 数据 文件 

数据 实例 事务 性 数据 和 联机 分 析 | 文本、 办 公文 档 PDF、 图 像 、| 自 描述 和 具有 定义 模式 
处 理 声音 ,视频 等 的 XML 数据 文件 

数据 模型 二 维 表 (关系 型 ) 树 、 图 

访问 交互 式 和 批 处 理 批 处 理 

数据 大 小 GB PB 

结构 静态 模式 动态 模式 

模式 先 有 模式 ,再 有 数据 先 有 数据 ,再 有 模式 先 有 数据 ,再 有 模式 
Oracle, Sybase, SQL Server、 | iBase, Hadoop, MapReduce, 

数据 库 DB2 Informix 等 Hive 和信 的 5 











随 着 网 络 技术 的 发 展 ,特别 是 Internet 和 Intranet 技术 的 飞快 发 展 .使 得 非 结 构 化 数据 
的 数量 日 趋 增 大 。 这 时 ,主要 用 于 管理 结构 化 数据 的 关系 数据 库 的 局 限 性 暴露 得 越 来 越 明 
显 。 完 全 基于 Internet 应 用 的 非 结 构 化 数据 库 将 成 为 继 层 次 数据 库 、 网 状 数据 库 和 关系 数 
据 库 之 后 的 又 一 重点 ,热点 技术 。 因 而 .数据 库 技术 相应 地 进入 了 “后 关系 数据 库 时代 ”, 发 
展 进入 基于 网 络 应 用 的 非 结 构 化 数据 库 时代 。 


1.2.4 数据、 信息 、 知 识 与 智能 的 关系 
数据 ,信息 、 知 识 是 有 相互 关系 又 有 区 别 的 三 个 概念 ,正确 理解 它们 之 间 的 含义 对 于 深 
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入 理解 大 数据 意义 和 价值 具有 重要 作用 。 图 1-2 给 出 了 数据 ,信息 和 知识 的 关系 和 区 别 。 






做 正确 的 行动 自动 调节 驾驶 员 车 座 的 高 度 ， 让 不 同 
身高 的 人 都 感觉 到 舒适 

规律 、 操 作 程 序 、 大 多 数 成 年 黑人 身高 超过 1.85 米 

行动 指南 

具有 实际 意义 的 奥巴马 身高 1.85 米 

数据 

没有 实际 意义 1.85 米 

的 数字 


图 1-2 数据 ,信息 .知识 和 智能 的 关系 


数据 是 没有 意义 的 数字 ,如 1.85 米 , 当 人 们 看 见 1. 85 米 时 并 不 知道 它 是 表示 一 个 人 的 
身高 ,还 是 游泳 池 的 水 深 , 必 须 将 它 与 它 所 处 的 实际 环境 或 场景 相 联 系 才能 够 准确 地 理解 
它 。 数 据 是 最 基础 的 元 素 , 它 反映 了 客观 世界 最 基本 的 事实 和 运行 状态 。 早 期 (1980 年 之 
前 ) 的 信息 化 应 用 主要 是 做 数据 处 理 , 计 算 机 对 数据 进行 处 理 , 得 到 各 种 数字 结果 ,然后 再 人 
为 对 这 些 结果 进行 解释 ,如 绘制 成 特定 形式 的 图 或 统计 表 。 

信息 是 具有 实际 意义 的 数据 ,如 “奥巴马 身高 1. 85 米 光 小 王 喜欢 音乐 ”。 信 息 是 通过 对 
数据 加 工 处 理 后 得 到 的 ,信息 是 融入 了 人 类 数据 处 理 和 表现 智慧 后 的 数据 呈现 方式 。 目 前 ， 
信息 化 应 用 主要 是 信息 处 理应 用 阶段 ,人 们 在 计算 机 或 者 各 种 移动 终端 上 得 到 的 主要 是 信 
息 ,依据 这 些 信 息 进 行 生 产 经 营 和 业务 决策 。 信 息 发 挥 的 作用 是 提供 竞争 情报 、 企 业经 营 状 
态 、 市 场 反馈 消息 .产品 成 本 构成 等 资讯 ,帮助 管理 人 员 减 少 决策 过 程 中 的 不 确定 性 :但 是 如 
何 理解 这 些 信息 ,这 些 信 息 反 映 了 客户 世界 的 什么 规律 ,如 果 做 出 相应 的 行动 完全 由 人 来 决 
定 , 所 做 的 决策 和 行动 的 正确 性 以 及 效果 则 完全 因 人 而 异 。 同 样 的 信息 ,由 于 决策 者 的 经 验 
和 认识 不 同 , 可 能 会 做 出 截然 不 同 的 决策 ,甚至 是 背离 事物 运行 方向 的 错误 决策 。 基 于 数据 
和 信息 处 理 的 信息 技术 应 用 属于 信息 化 应 用 的 初级 阶段 。 

知识 则 是 在 信息 的 基础 上 ,总 结 了 人 类 实践 敬仰 后 得 到 的 对 客观 世界 运行 规律 .操作 程 
序 和 最 佳 行动 策略 的 认识 ,如 “大 部 分 成 年 黑人 的 身高 超过 1. 85 米 ” 就 是 一 种 知识 。 知 识 是 
主体 获得 的 与 客观 事物 存在 及 变化 内 在 规律 有 关 的 系统 化 .组织 化 的 信息 。 维 基 百 科 
(http://zh. wikipedia. org/ wiki/ %E7%9F%A5%E8%AF%86) 中 对 知识 给 出 的 定义 是 : 
知识 是 对 某 个 主题 确信 的 认识 ,并 且 这 些 认识 拥有 潜在 的 能 力 为 特定 目的 而 使 用 。 知 识 是 
结构 化 的 经 验 、 价 值 .相关 信息 和 专家 洞察 力 的 融合 .提供 了 评价 和 产生 新 的 经 验 和 信息 框 
架 。 维 基 百 科 的 定义 强调 了 知识 的 三 个 重要 特性 : 第 一 ,知识 是 确信 的 认 知 ,是 指 知识 是 经 
过 大 量 实践 检验 后 形成 的 共识 ; 第 二 ,知识 可 以 使 用 ,知识 的 使 用 价值 是 知识 的 最 大 作用 ; 
第 三 ,知识 可 以 用 来 评价 和 产生 新 的 知识 ,这 就 使 得 知识 具有 了 生产 要 素 的 特性 。 随 着 信息 
技术 的 飞速 发 展 ,我 们 正在 加 速 进入 知识 经 济 时 代 , 在 知识 经 济 中 知识 成 为 重要 的 生产 要 
素 , 所 谓 知识 经 济 就 是 建立 在 知识 的 生产 、 分 配 和 使 用 (消费 ) 之 上 的 经 济 。 今 天 得 到 全 球 广 
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泛 重 视 的 大 数据 应 用 可 以 看 作 是 知识 应 用 的 一 个 方面 . 即 利 用 大 数据 挖掘 技术 ,发 现 企 业经 
营 管 理 和 市 场 运作 中 隐藏 的 规律 ,并 用 它 来 指导 实践 ,获得 市 场 竞 争 优 势 。 企 业 不 能 满足 当 
前 的 信息 处 理应 用 阶段 的 信息 化 应 用 现状 ,需要 不 断 提升 信息 化 应 用 的 深度 ,向 即将 成 为 主 
流 的 知识 应 用 阶段 迈进 ,基于 知识 的 信息 技术 应 用 是 信息 化 应 用 的 终极 阶段 。 

智慧 化 是 信息 化 应 用 的 高 级 阶段 。 智 慧 是 以 知识 和 智能 为 基础 ,其 中 知识 是 一 切 智能 
行为 的 基础 ,而 智力 是 获取 知识 并 运用 知识 求解 问题 的 能 力 , 是 头脑 中 思维 活动 的 具体 体 
现 。 智 能 是 指 个 体 对 客观 事物 进行 合理 分 析 和 判断 ,并 灵活 自 适应 地 对 变化 的 环境 进行 响 
应 的 一 种 能 力 。 智 能 包括 环境 感知 .逻辑 推理 、 策 略 规划 行动 和 自学 习 5 种 能 力 , 这 5 种 能 
力 是 判断 一 个 对 象 或 系统 是 否 具有 智能 的 主要 特征 。 这 5 种 能 力 结合 以 后 就 可 以 形成 若干 
种 智能 对 象 或 系统 ,如 智能 机 器 人 、 智 能 汽车 、 智 能 调度 与 控制 系统 、 智 能 工厂 、 智 能 停车 场 、 
智能 电网 等 。 下 面 以 智能 汽车 为 例 对 这 5 种 能 力 进行 介绍 。 

(1) 环境 感知 能 力 : 具有 对 环境 的 基本 模型 建立 功能 ,并 能 够 感知 到 环境 中 的 变化 ,如 
智能 汽车 可 以 感知 到 道路 上 的 障碍 物 的 交通 信号 灯 的 信息 。 

(2) 逻辑 推理 能 力 : 运用 所 拥有 的 知识 ,对 感知 到 的 环境 变化 进行 逻辑 推理 和 判断 , 识 
别 出 对 系统 运行 带 来 的 影响 ,以 决定 是 否 需要 采取 必要 行动 ,如 智能 汽车 识别 出 信号 灯 是 红 
色 的 ,就 需要 停车 ,等 信号 灯 变 绿色 后 再 启动 汽车 。 

(3) 策略 规划 : 在 逻辑 推理 得 出 需要 采用 行动 的 情况 下 ,策略 规划 功能 负责 制定 一 个 
最 佳 行动 策略 ,如 智能 汽车 识别 出 道路 上 的 障碍 物 比 较 大 ,需要 避让 ,策略 规划 功能 根据 当 
前 的 车 速 、 邻 近 车 道上 是 否 有 靠近 的 其 他 汽车 .道路 是 否 湿 滑 等 情况 ,做 出 汽车 减速 和 向 左 
(向 右 ) 绕 行路 障 的 决策 。 

(4) 行动 能 力 : 按照 策略 规划 功能 给 出 的 决策 ,执行 系统 进行 行动 操作 ,如 智能 汽车 的 
油门 和 方向 控制 系统 按照 策略 规划 功能 给 出 的 策略 控制 汽车 的 行进 速度 方向 。 

(5) 自学 习 能 力 : 每 次 执行 行动 完成 后 ,对 执行 的 结果 进行 评估 ,并 总 结 经 验 ,将 成 功 
的 结果 作为 知识 进行 积累 ,对 失败 的 结果 作为 反面 案例 知识 也 进行 积累 ,通过 学 习 和 知识 积 
累 , 系 统 不 断 进化 ,逐步 对 环境 变化 的 响应 速度 和 准确 度 越 来 越 高 。 

《现代 汉语 词典 》 对 智能 的 定义 是 “智慧 和 能 力 ”, 对 智慧 的 定义 是 “辨析 判断 .发 明 创造 
的 能 力 ”。 对 智慧 的 另外 一 种 定义 是 “对 事物 能 迅速 灵活、 正确 地 理解 和 处 理 的 能 力 ”。 依 
据 智 慧 的 内 容 和 所 起 作用 的 不 同 , 可 以 把 智慧 分 为 三 类 : 创造 智慧 、 发 现 智慧 和 整合 智慧 。 
创造 智慧 ,是 指 人 们 可 以 从 无 到 有 地 创造 和 发 明 新 东西 的 能 力 。 发 现 智慧 是 指 人 们 发 掘 已 
经 存在 但 尚未 被 认 知 的 事物 或 其 本 质 、 规 律 的 能 力 。 整 合 智慧 是 指 人 们 运用 现 有 的 规则 和 
知识 来 调整 .梳理 ,矫正 ,改变 已 经 存在 的 东西 的 能 力 。 

帕 梅 拉 ，。， 麦 考 达 克 (Pamela McCorduck) 在 她 的 著名 的 人 工 智 能 历史 研究 (机 器 思维 》 
CMachine Who Think ,1979) 中 曾经 指出 : 在 复杂 的 机 械 装置 与 智能 之 间 存 在 着 长 期 的 联 
系 。 从 几 世 纪 前 出 现 的 神话 般 的 复杂 巨 钟 和 机 械 自动 机 开始 .人们 已 对 机 器 操作 的 复杂 性 
与 自身 的 智能 活动 进行 直接 联系 。 

著名 的 英国 科学 家 图 灵 被 称 为 人 工 智 能 之 父 , 图 灵 不 仅 创 造 了 一 个 简单 的 通用 的 非 数 
字 计 算 模型 ,而 且 直 接 证 明了 计算 机 可 能 以 某 种 被 理解 为 智能 的 方法 工作 。1950 年 ,图 灵 
发 表 了 题 为 “计算 机 能 思考 吗 ?” 的 论文 .给 人 工 智能 下 了 一 个 定义 ,而 且 论 证 了 人 工 智 能 的 
可 能 性 。 定 义 智 慧 时 ,如 果 一 台 机 器 能 够 通过 称 为 图 灵 实 验 的 实验 , 那 它 就 是 智慧 的 。 图 灵 








第 1 章 天才 所 过 9 1 


实验 的 本 质 就 是 让 人 在 不 看 外 形 的 情况 下 不 能 区 别 是 机 器 的 行为 还 是 人 的 行为 时 ,这 个 机 
器 就 是 智慧 的 。 

智能 和 智慧 的 主要 区 别 ,主要 体现 在 以 下 几 个 方面 。 

(1) 智慧 更 多 地 用 于 形容 人 ,智能 更 多 地 用 于 形容 物件 或 系统 。 

(2) 智慧 更 多 的 是 反映 人 类 精神 层面 的 活动 过 程 ,包括 感知 、 综 合 、 推 理 、 判 断 、 决 策 、 学 
习 等 各 种 智力 活动 , 它 主要 反映 了 人 类 拥有 知识 的 丰富 程度 和 认识 事物 本 质 的 能 力 。 


1.3 大 数据 发 展 史 


早 在 1970 年 哈佛 大 学 关于 资源 三 角形 的 论述 中 ,将 材料 能源、 信息 看 成 是 推动 社会 发 
展 的 三 种 基本 资源 。 回 顾 过 去 的 半 个 世纪 ,可 以 看 到 IT 产业 已 经 经 历 过 几 轮 技术 革命 浪 
潮 , 每 个 阶段 的 浪潮 都 是 由 新 兴 的 IT 供应 商 主 导 , 并 极 大 地 推动 了 信息 技术 和 产业 的 发 
展 。21 世纪 是 人 类 走向 信息 社会 的 世纪 ,是 网 络 的 时 代 , 是 超 高 速 信息 公路 建设 取得 实质 
性 进展 并 进入 应 用 的 年 代 。 当 前 计算 机 正 朝 着 巨型 化 ,微型 化 ,智能 化 、 网 络 化 等 方向 发 展 ， 
计算 机 本 身 的 性 能 越 来 越 好 ,应 用 范围 也 越 来 越 广 ,从 而 使 计算 机 成 为 工作 ,学习 和 生活 中 
必 不 可 少 的 工具 。 数 据 来 源 于 一 切 客观 存在 ,包括 宏观 到 微观 的 物理 世界 ,各 种 生物 体 、 人 
类 社会 活动 ,感知 ,认识 和 思维 的 结果 。 随 着 信息 技术 的 发 展 , 当 通常 所 说 的 数据 是 指 经 过 
数字 化 转换 后 的 信息 ,是 可 以 被 量化 .分 析 和 再 利用 的 信息 ,包含 数值 .文字 、 符 号、 音频 ,视频 
等 不 同形 态 。 对 数据 的 分 析 如 交通 规划 、 宏 观 经 济 分 析 、 电 力 系 统 规划 、 气 象 预测 、 高 能 物理 、 
航天 航空 ,基因 工程 等 大 规模 数据 分 析 和 计算 早已 在 人 类 生产 和 生活 中 发 挥 着 关键 的 作用 。 


1.3.1 数据 管理 发 展 历程 


随 着 计算 机 的 发 展 ,数据 管理 经 历 了 几 个 重要 的 阶段 。 数 据 库 技术 从 诞生 到 现在 ,在 不 
到 半 个 世纪 的 时 间 里 ,形成 了 坚实 的 理论 基础 成 熟 的 商业 产品 和 广泛 的 应 用 领域 ,吸引 越 
来 越 多 的 研究 者 加 入 。 数 据 库 的 诞生 和 发 展 给 计算 机 信息 管理 带 来 了 一 场 巨大 的 革命 。30 
年 间 数 据 库 领域 获得 了 三 次 计算 机 图 灵 奖 (C. W. Bachman,E. F. Codd,J. Gray) ,更 加 充分 
地 说 明了 数据 库 是 一 个 充满 活力 和 创新 精神 的 领域 。 下 面 就 让 我 们 沿 着 历史 的 轨迹 ,追溯 
一 下 数据 库 的 发 展 历程 ,如 图 1-3 数据 管理 技术 发 展 历程 所 示 。 
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图 1-3 数据 管理 技术 发 展 历程 


Wa 大 数据 :长 所 总 更 点 数据 工 各 

1. 数据 管理 的 诞生 

20 世纪 60 年 代 ,IT 系统 规模 和 复杂 度 变 大 ,数据 与 应 用 分 离 的 需求 开始 产生 , 那 时 的 
数据 管理 非常 简单 ,主要 通过 大 量 的 分 类 比较 和 表格 绘制 的 机 器 运行 数 百 万 穿孔 卡片 来 进 
行 数据 的 处 理 , 其 运行 结果 在 纸 上 打 印 出 来 或 者 制 成 新 的 穿孔 卡片 。 而 数据 管理 就 是 对 所 
有 这 些 穿孔 卡片 进行 物理 的 储存 和 处 理 。 

1951 年 : Univac 系统 使 用 磁带 和 穿孔 卡片 作为 数据 存储 。1951 年 , 雷 明 顿 兰 德 公司 
(Remington Rand Inc. ) 的 一 种 叫做 Univac 工 的 计算 机 推出 了 一 种 一 秒 钟 可 以 输入 数 百 条 
记录 的 磁带 驱动 器 ,从 而 引发 了 数据 管理 的 革命 。1956 年 ,IBM 生产 出 第 一 个 磁盘 驱动 
器 一 一 the Model 305 RAMAC。 此 驱动 器 有 50 个 盘 片 ,每 个 盘 片 直径 是 二 英尺 ,可 以 存储 
5MB 的 数据 。 使 用 磁盘 最 大 的 好 处 是 可 以 随机 地 存 取 数据 ,而 穿孔 卡片 和 磁带 只 能 顺序 存 
取 数 据 。 

1961 年 : 通用 电气 (GE) 公 司 的 Charles Bachman 开发 了 第 一 个 数据 库 管理 系统 一 一 
IDS(Integrated Data Store)。1961 年 ,通用 电气 公司 (General Electric Co. ) 的 Charles 
Bachman 成 功 地 开发 出 世界 上 第 一 个 网 状 DBMS, 也 是 第 一 个 数据 库 管 理 系 统一 一 集成 数 
据 存储 (Integrated Data Store IDS) ,奠定 了 网 状 数据 库 的 基础 ,并 在 当时 得 到 了 广泛 的 发 
行 和 应 用 。IDS 具有 数据 模式 和 日 志 的 特征 。 但 它 只 能 在 GE 主机 上 运行 ,并 且 数 据 库 只 
有 一 个 文件 ,数据 库 所 有 的 表 必 须 通过 手工 编码 来 生成 。 之 后 ,通用 电气 公司 的 一 个 客户 
(BF Goodrich Chemical 公司 ) 最 终 不 得 不 重 写 了 整个 系统 ,并 将 重 写 后 的 系统 命名 为 集成 
数据 管理 系统 (IDMS) 。 层 次 型 DBMS 是 紧 随 网 络 型 数据 库 而 出 现 的 。 最 著名 最 典型 的 层 
次 数据 库 系统 是 IBM 公司 在 1968 年 开发 的 IMS(Information Management System) ,一 种 
适合 其 主机 的 层次 数据 库 。 这 是 IBM 公司 研制 的 最 早 的 大 型 数据 库 系 统 程序 产品 。 

2. 关系 数据 库 的 产生 

由 于 计算 机 开始 广泛 地 应 用 于 数据 管理 ,对 数据 的 共享 提出 了 越 来 越 高 的 要 求 。 传 统 
的 文件 系统 已 经 不 能 满足 人 们 的 需要 ,能 够 统一 管理 和 共享 数据 的 数据 库 管理 系统 
(DBMS) 应 运 而 生 。 数 据 模 型 是 数据 库 系统 的 核心 和 基础 ,各 种 DBMS 软件 都 是 基于 某 种 
数据 模型 的 ,所 以 通常 也 按照 数据 模型 的 特点 将 传统 数据 库 系 统 分 成 网 状 数据 库 、 层 次 数据 
库 和 关系 数据 库 三 类 。 网 状 数据 库 和 层次 数据 库 已 经 很 好 地 解决 了 数据 的 集中 和 共享 问 
题 ,但 是 在 数据 独立 性 和 抽象 级 别 上 仍 有 很 大 欠缺 。 用 户 在 对 这 两 种 数据 库 进 行 存 取 时 , 仍 
然 需要 明确 数据 的 存储 结构 ,指出 存 取 路 径 。 

1969 年 : IBM 的 研究 员 Edgar F.Codd 博士 发 明了 关系 数据 库 。 次 年 在 刊物 
Communicationof the ACM 上 发 表 了 一 篇 名 为 A Relational Model of Data for Large 
Shared Data Banks 的 论文 ,提出 了 关系 模型 的 概念 , 莫 定 了 关系 模型 的 理论 基础 。 尽 管 在 
1968 年 Childs 已 经 提出 了 面向 集合 的 模型 ,然而 这 篇 论文 被 普遍 认为 是 数据 库 系 统 历史 上 
具有 划时代 意义 的 里 程 碑 。 之 后 又 陆续 发 表 多 篇 文章 ,论述 了 范式 理论 和 衡量 关系 系统 的 
12 条 标准 ,用 数学 理论 葛 定 了 关系 数据 库 的 基础 。 

1974 年 : IBM 的 Ray Boyce 和 Don Chamberlin 将 Codd 关系 数据 库 的 12 条 准则 的 数 
学 定义 以 简单 的 关键 字 语 法 表现 出 来 ,里 程 碑 式 地 提出 了 SQL (Structured Query 
Language) 。SQL 的 功能 包括 查询 ,操纵 、 定 义 和 控 制 ,是 一 个 综合 的 、 通 用 的 关系 数据 库 语 
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言 , 同 时 又 是 一 种 高 度 非 过 程 化 的 语言 ,只 要 求 用 户 指出 做 什么 而 不 需要 指出 怎么 做 。SQL 
集成 实现 了 数据 库 生 命 周期 中 的 全 部 操作 。SQL 提供 了 与 关系 数据 库 进 行 交 互 的 方法 , 它 
可 以 与 标准 的 编程 语言 一 起 工作 。20 世纪 70 年 代 中 期 ,关系 理论 通过 SQL 在 商业 数据 库 
Oracle 和 DB2 中 使 用 。 

1976 年 : 霍 尼 志 尔 公司 (Honeywell) 公 司 推出 了 Multics Relational Data Store 一 一 第 
一 个 商用 关系 数据 库 系 统 。 关 系 型 数据 库 系统 以 关系 代数 为 坚实 的 理论 基础 ,经 过 几 十 年 
的 发 展 和 实际 应 用 ,技术 越 来 越 成 熟 和 完善 。 其 代表 产品 有 Oracle、IBM 公司 的 DB2、 微 软 
公司 的 MS SQL Server 以 及 Informix、ADABASD 等 。 

1979 年 : Oracle 公司 引入 了 第 一 个 商用 SQL 关系 数据 库 管 理 系 统 。 

1983 年 : IBM 推出 了 DB2 数据 库 产品 。 

3. 数据 仓库 的 形成 

1985 年 : 为 Procter & Gamble 系统 设计 的 第 一 个 商务 智能 系统 由 Metaphor 计算 机 系 
统 有 限 公司 为 Procter & Gamble 公司 开发 出 来 ,主要 是 用 来 连接 销售 信息 和 零售 的 扫描 仪 
数据 。 同 年 ,Pilot 软件 公司 开始 出 售 第 一 个 商用 客户 /服务 器 执行 信息 系统 一 一 Command 
Center, 

1991 年 : W. H. Bill Inmon 发 表 了 “构建 数据 仓库 ”1988 年 ,IBM 公司 的 研究 者 
Barry Devlin 和 Paul Murphy 发 明了 一 个 新 的 术语 一 一 信息 仓库 ,之 后 ,IT 的 厂商 开始 构 
建 实验 性 的 数据 仓库 。1991 年 ,W. H. Bill Inmon 出 版 了 一 本 关于 如 何 构建 数据 仓库 的 书 ， 
使 得 数据 仓库 真正 开始 应 用 。 

4. 数据 挖掘 诞生 

1997 年 年 底 在 加 拿 大 温哥华 举行 的 第 五 次 亚太 经 合 组 织 非 正 式 首 脑 会 议 (APEC) 上 美 
国 总 统 克林顿 提出 敦促 各 国共 同 促进 电子 商务 发 展 的 议案 ,引起 了 全 球 首 脑 的 关注 ,IBM、 
HP 和 Sun 等 国际 著名 的 信息 技术 厂商 宣布 1998 年 为 电子 商务 年 。 

随 着 互联 网 快速 发 展 和 数据 库 技术 应 用 的 不 断 深化 ,数据 的 积累 不 断 膨 胀 ,导致 简单 的 
查询 和 统计 已 经 无 法 满足 企业 的 商业 需求 ,急需 一 些 革命 性 的 技术 去 挖掘 数据 背后 的 信息 。 
同时 ,这 期 间 计算 机 领域 的 人 工 智能 (Artificial Intelligence) 也 取得 了 巨大 进展 ,进入 了 机 
器 学 习 的 阶段 。 因 此 ,人 们 将 两 者 结合 起 来 ,用 数据 库 管 理 系统 存储 数据 ,用 计算 机 分 析 数 
据 , 并 且 尝 试 挖掘 数据 背后 的 信息 。 这 两 者 的 结合 促 生 了 一 门 新 的 学 科 , 即 数据 库 中 的 知识 
发 现 (Knowledge Discovery in Databases. KDD). 

1989 年 8 月 召开 的 第 11 届 国 际 人 工 智能 联合 会 议 的 专题 讨论 会 上 首次 出 现 了 知识 发 
现 (KDD) 这 个 术语 ,而 数据 挖掘 (Data Mining) 则 是 知识 发 现 (KDD) 的 核心 部 分 , 它 指 的 是 
从 数据 集合 中 自动 抽取 隐藏 在 数据 中 的 那些 有 用 信息 的 非 平 凡 过 程 ,这 些 信息 的 表现 形式 
为 : 规则 概念、 规律 及 模式 等 。 进 入 21 世纪 ,数据 挖掘 已 经 成 为 一 门 比较 成 熟 的 交叉 学 
科 , 并 且 数 据 挖掘 技术 也 伴随 着 信息 技术 的 发 展 日 益 成 熟 起 来 。 

数据 挖掘 融合 了 数据 库 、 人 工 智能 、 机 器 学 习 、 统 计 学 、 高 性 能 计算 、 模 式 识 别 、 神 经 网 
络 、 数 据 可 视 化 \ 信 息 检索 和 空间 数据 分 析 等 多 个 领域 的 理论 和 技术 ,是 21 世纪 初期 对 人 类 
产生 重大 影响 的 十 大 新 兴 技 术 之 一 。 
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5. Hadoop 生态 系统 诞生 

2005 年 ,Hadoop 最 初 只 是 雅虎 公司 用 来 解决 网 页 搜索 问题 的 一 个 项 目 , 后 来 因 其 技术 
的 高 效 性 ,被 Apache Software Foundation 公司 引入 并 成 为 开源 应 用 。2008 年 ,Hadoop 推 
出 开源 1. 0 发 行 版 ,其 本 身 不 是 一 个 产品 ,而 是 由 多 个 软件 产品 组 成 的 一 个 生态 系统 ,这 些 
软件 产品 共同 实现 全 面 功能 和 灵活 的 大 数据 分 析 。 从 技术 上 看 ,Hadoop 由 两 项 关键 服务 
构成 : 采用 Hadoop 分 布 式 文件 系统 (HDFS) 的 可 靠 数 据 存 储 服务 ,以 及 利用 一 种 叫做 
MapReduce 技术 的 高 性 能 并 行 数据 处 理 服务 。 这 两 项 服务 的 共同 目标 是 ,提供 一 个 使 对 结 
构 化 和 复杂 数据 的 快速 .可 靠 分 析 变 为 现实 的 基础 。 

2008 年 6 月 ,思科 发 布 了 一 份 报告 , 题 为 思科 视觉 网 络 指数 一 一 预测 与 方法 ,2007 
2012”, 作 为 “持续 跟踪 和 预测 视觉 网 络 应 用 影响 的 行动 ”的 一 部 分 。 这 份 报告 预言 “从 现在 
到 2012 年 ,IP 流量 将 每 两 年 翻 一 番 ”",2012 年 IP 流量 将 达到 0. 5ZB。 这 份 预测 比较 准确 ， 
正如 思科 最 近 一 份 报告 (2012 年 5 月 30 日 ) 中 指出 的 ,2012 年 IP 流量 刚刚 超过 0. 5ZB,“ 在 
过 去 的 5 年 中 增长 了 8 倍 ”。 

2008 年 年 末 ,“ 大 数据 "得 到 部 分 美国 知名 计算 机 科学 研究 人 员 的 认可 ,业界 组 织 计算 
社区 联盟 (Computing Community Consortium ) , 发 表 了 一 份 有 影响 力 的 白皮书 (大 数据 计 
算 : 在 商务 .科学 和 社会 领域 创建 革命 性 突破 》。 它 使 人 们 的 思维 不 仅 局 限于 数据 处 理 的 机 
器 ,并 提出 : 大 数据 真正 重要 的 是 新 用 途 和 新 见解 ,而 非 数 据 本 身 。 此 组 织 可 以 说 是 最 早 提 
出 大 数据 概念 的 机 构 。 


1.3.2 大 数据 的 演变 及 回顾 


2009 年 ,印度 政府 建立 了 用 于 身份 识别 管理 的 生物 识别 数据 库 , 联 合 国 全 球 脉 冲 项 目 
已 研究 了 对 如 何 利用 手机 和 社交 网 站 的 数据 源 来 分 析 预 测 从 螺旋 价格 到 疾病 暴发 之 类 的 
问题 。 

2009 年 年 中 ,美国 政府 通过 启动 Data. gov 网 站 的 方式 进一步 开放 了 数据 的 大 门 , 这 个 
网 站 向 公众 提供 各 种 各 样 的 政府 数据 。 该 网 站 的 超过 4. 45 万 的 数据 集 被 用 于 保证 一 些 网 
站 和 智能 手机 应 用 程序 来 跟踪 从 航班 到 产品 召回 再 到 特定 区 域内 失业 率 的 信息 ,这 一 行动 
激发 了 从 肯尼亚 到 英国 范围 内 的 政府 们 相继 推出 类 似 举 措 。 

2009 年 12 月 , 罗 杰 ，E. 博 恩 和 詹姆斯 E. 少 特 发 表 了 《信息 知 多 少 ? 2009 年 美国 消 
费 者 报告 》。。 研 究 发 现 ,2008 年 “美国 人 消费 了 约 1. 3 万 亿 小 时 信息 ,几乎 平均 每 天 消费 
12 小 时 。 总 计 3. 6 泽 字 节 (ZB) ,10 845 万 亿 单词 ,相当 于 平均 每 人 每 天 消费 100 500 单词 及 
34GB 信息 ,” 博 恩 、 少 特 和 沙 坦 亚 ， 巴 鲁 在 2011 年 1 月 发 表 了 《信息 知 多 少 ? 2010 年 企业 
服务 器 信息 报告 ,继续 上 述 研究 。 在 文中 他 们 估计 ,2008 年 “世界 上 的 服务 器 处 理 了 
9.57ZB 信息 ,几乎 是 9.57X10” 字 节 信 息 ,或 者 是 10 万 亿 GB。 也 就 是 平均 每 天 每 个 工作 
者 产生 12GB 信息 ,或 者 每 年 每 个 工作 者 产生 3TB 信息 。 世 界 上 所 有 的 公司 平均 每 年 处 理 
63TB 信息 ”。 

2010 年 2 月 , 肯 尼 斯 。 库 克 尔 在 经济 学 人 》 上 发 表 了 长 达 14 页 的 大 数据 专题 报告 ( 数 
据 , 无 所 不 在 的 数据 》。 库 克 尔 在 报告 中 提 到 :“ 世 界 上 有 着 无 法 想象 的 巨 量 数字 信息 ,并 以 
极 快 的 速度 增长 。 从 经 济 界 到 科学 界 , 从 政府 部 门 到 艺术 领域 ,很 多 方面 都 已 经 感受 到 了 这 
种 巨 量 信息 的 影响 。 科 学 家 和 计算 机 工程 师 已 经 为 这 个 现象 创造 了 一 个 新 词汇 :“ 大 数 
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据 '。” 库 克 尔 也 因此 成 为 最 早 洞 见 大 数据 时 代 趋 势 的 数据 科学 家 之 一 。 

2011 年 2 月 ,IBM 的 沃 森 超 级 计算 机 每 秒 可 扫描 并 分 析 4TB( 约 两 亿 页 文字 量 ) 的 数据 
量 ,并 在 美国 著名 智力 竞赛 电视 节目 (危险 边缘 》(Jeopardy) 上 击败 两 名 人 类 选手 而 夺冠 。 
后 来 纽约 时 报 认为 这 一 刻 为 一 个 “大 数据 计算 的 胜利 ”。 

2011 年 5 月 ,全 球 知 名 咨询 公司 麦肯锡 (McKinsey&Company) 全球 研 究 院 (MGT) 发 布 
了 一 份 报告 一 一 《大 数据 : 创新 .竞争 和 生产 力 的 下 一 个 新 领域 ), 从 此 大 数据 开始 备 受 关 
注 , 这 也 是 专业 机 构 第 一 次 全 方面 介绍 和 展望 大 数据 。 报 告 指出 ,大 数据 已 经 渗透 到 当今 每 
一 个 行业 和 业务 职能 领域 ,成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖掘 和 运用 ,预示 着 
新 一 波 生产 率 增长 和 消费 者 一 余 浪潮 的 到 来 。 报 告 还 提 到 ,“ 大 数据 ” 源 于 数据 生产 和 收集 
的 能 力 和 速度 的 大 幅 提升 一 一 由 于 越 来 越 多 的 人 .设备 和 传感器 通过 数字 网 络 连接 起 来 , 产 
生 、 传 送 、 分 享 和 访问 数据 的 能 力也 得 到 彻底 变革 。 

2011 年 12 月 ,工业 和 信息 化 部 发 布 的 物 联网 十 二 五 规划 中 ,把 信息 处 理 技术 作为 4 项 
关键 技术 创新 工程 之 一 被 提出 来 ,其 中 包括 海量 数据 存储 数据 挖掘 .图 像 视频 智能 分 析 , 这 
都 是 大 数据 的 重要 组 成 部 分 。 

2012 年 1 月 份 ,瑞士 达 沃 斯 召开 的 世界 经 济 论坛 上 ,大 数据 是 主题 之 一 ,会 上 发 布 的 报 
告 ( 大 数据 ,大 影响 )(Big Data ,Big Impact) 宣 称 ,数据 已 经 成 为 一 种 新 的 经 济 资产 类 别 ， 
就 像 货 币 或 黄金 一 样 。 

2012 年 3 月 ,美国 奥巴马 政府 在 白宫 网 站 发 布 了 《大 数据 研究 和 发 展 倡议 ), 这 一 倡议 
标志 着 大 数据 已 经 成 为 重要 的 时 代 特 征 。2012 年 3 月 22 日 ,奥巴马 政府 宣布 两 亿美 元 投 
资 大 数据 领域 ,是 大 数据 技术 从 商业 行为 上 升 到 国家 科技 战略 的 分 水 岭 , 在 次 日 的 电话 会 议 
中 ,政府 将 数据 定义 为 “未 来 的 新 石油 ”, 大 数据 技术 领域 的 竞争 , 事 关 国家 安全 和 未 来 。 并 
表示 ,国家 层面 的 竞争 力 将 部 分 体现 为 一 国 拥有 数据 的 规模 、 活 性 以 及 解释 .运用 数据 的 能 
力 ; 国家 数字 主权 体现 对 数据 的 占有 和 控制 。 数 字 主 权 将 是 继 边 防 海防、 空 防 之 后 , 另 一 
个 大 国 博弈 的 空间 。 

2012 年 4 月 ,美国 软件 公司 Splunk 于 19 日 在 纳 斯 达 克 成 功 上 市 ,成 为 第 一 家 上 市 的 
大 数据 处 理 公司 。 鉴 于 美国 经 济 持续 低迷 、 股 市 持续 震荡 的 大 背景 ,Splunk 首 日 的 突出 交 
易 表 现 尤 其 令 人 们 印象 深刻 , 首 日 即 暴涨 了 一 倍 多 。Splunk 是 一 家 领先 的 提供 大 数据 监测 
和 分 析 服 务 的 软件 提供 商 , 成 立 于 2003 年 。Splunk 成 功 上 市 促进 了 资本 市 场 对 大 数据 的 
关注 ,同时 也 促使 IT 厂商 加 快 大 数据 布局 。 

2012 年 7 月 ,联合国 在 纽约 发 布 了 一 份 关 于 大 数据 政务 的 白皮书 ,总 结 了 各 国政 府 如 
何 利 用 大 数据 更 好 地 服务 和 保护 人 民 。 这 份 白皮书 举例 说 明 在 一 个 数据 生态 系统 中 ,个 人 、 
公共 部 门 和 私人 部 门 各 自 的 角色 、 动 机 和 需求 : 例如 ,通过 对 价格 关注 和 更 好 服务 的 渴望 ， 
个 人 提供 数据 和 众 包 信息 ,并 对 隐私 和 退出 权力 提出 需求 ; 公共 部 门 出 于 改善 服务 ,提升 效 
益 的 目的 ,提供 了 诸如 统计 数据 .设备 信息 、 健 康 指 标 , 及 税务 和 消费 信息 等 ,并 对 隐私 和 退 
出 权力 提出 需求 ; 私人 部 门 出 于 提升 客户 认 知 和 预测 趋势 目的 ,提供 汇总 数据 .消费 和 使 用 
信息 ,并 对 敏感 数据 所 有 权 和 商业 模式 更 加 关注 。 白 皮 书 还 指出 ,人 们 如 今 可 以 使 用 的 极 大 
丰富 的 数据 资源 ,包括 旧 数 据 和 新 数据 :来 对 社会 人 口 进行 前 所 未 有 的 实时 分 析 。 联 合 国 还 
以 爱尔兰 和 美国 的 社交 网 络 活跃 度 增长 可 以 作为 失业 率 上 升 的 早期 征兆 为 例 ,表明 政府 如 
果 能 合理 分 析 所 掌握 的 数据 资源 .将 能 “与 数 俱 进 ” ,快速 应 变 。 
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2012 年 12 月 “世界 经 济 论坛 ”发布 (大 数据 、 大 影响 ) 报 告 ,阐述 大 数据 在 金融 服务 、 健 
康 、 教 育 \ 农 业 、 医 疗 等 多 个 领域 给 世界 经 济 社会 发 展 带 来 的 机 会 。 

2013 年 5 月 ,麦肯锡 全 球 研究 所 (McKinsey Global Institute) 发 布 了 一 份 名 为 4 颠覆 性 
技术 : 技术 进步 改变 生活 、 商 业 和 全 球 经 济 ) 的 研究 报告 。 报 告 确 认 的 未 来 12 种 新 兴 技 术 ， 
有 望 在 2025 年 带 来 14 万 亿 至 33 万 亿美 元 的 经 济 效 益 。 令 人 惊讶 的 是 ,最 为 热门 的 大 数据 
技术 却 未 被 列 信 其中。 麦肯锡 专门 解释 称 , 大 数据 已 成 为 这 些 可 能 改变 世界 格局 的 12 项 技 
术 中 许多 技术 的 基石 ,包括 移动 互联 网 .知识 工作 自动 化 、. 物 联网 、 云 计算 .先进 机 器 人 、 自 动 
汽车 ,基因 组 学 等 都 少不了 大 数据 应 用 。 

2014 年 4 月 ,世界 经 济 论坛 以 "大 数据 的 回报 与 风险 ”主题 发 布 了 《全 球 信息 技术 报告 
(第 13 版 )》。 报 告 认为 ,在 未 来 几 年 中 针对 各 种 信息 通信 技术 的 政策 甚至 会 显得 更 加 重要 。 
在 接 下 来 将 对 数据 保密 和 网 络 管制 等 议题 展开 积极 讨论 。 全 球 大 数据 产业 的 日 趋 活 跃 , 技 
术 演 进 和 应 用 创新 的 加 速 发 展 ,使 各 国政 府 逐 渐 认识 到 大 数据 在 推动 经 济 发 展 . 改 善 公 共 服 
务 , 增 进 人 民 福 社 , 乃 至 保障 国家 安全 方面 的 重大 意义 。 

2014 年 5 月 ,美国 白宫 发 布 了 2014 年 全 球 “ 大 数据 ”白皮书 的 研究 报告 (大 数据 : 抓 住 
机 遇 、 守 护 价值 ?。 报 告 鼓励 使 用 数据 以 推动 社会 进步 ,特别 是 在 市 场 与 现 有 的 机 构 并 未 以 
其 他 方式 来 支持 这 种 进步 的 领域 ; 同时 ,也 需要 相应 的 框架 、 结 构 与 研究 ,来 帮助 保护 美国 
人 对 于 保护 个 人 隐私 确保 公平 或 是 防止 歧视 的 坚定 信仰 。 

2015 年 8 月 国务 院 发 布 (促进 大 数据 发 展 行动 纲要 》, 这 为 我 国 大 数据 发 展 进行 了 顶层 
设计 和 统筹 部 署 ,这 是 目前 为 止 我 国 促进 大 数据 发 展 的 第 一 份 权威 性 、 系 统 性 文件 ,从 国家 
大 数据 发 展 战略 全 局 的 高 度 , 提 出 了 我 国 大 数据 发 展 的 顶层 设计 ,是 指导 我 国 未 来 大 数据 发 
展 的 纲领 性 文件 。2015 年 10 月 31 日 ,十 八 届 五 中 全 会 通过 (中 共 中 央 关 于 制定 国民 经 济 
和 社会 发 展 第 十 三 个 五 年 规划 的 建议 ), 规 划 指 出 : 实施 网 络 强国 战略 ,实施 * 互 联网 十 ” 行 
动 计划 ,发 展 分 享 经 济 , 实 施 国家 大 数据 战略 。 

2015 年 11 月 大 数据 产业 "十 三 五 ?发展 规划 编制 小 组 在 京 召开 专题 研讨 会 ,着 手 编制 
《大 数据 产业 “十 三 五 ”发 展 规划 ), 将 其 作为 贯彻 国家 大 数据 战略 、 落 实 ( 促 进 大 数据 发 展 行 
动 纲要 》、 加 快 建设 数据 强国 的 重要 抓 手 。 除 制定 (大 数据 产业 “十 三 五 "发展 规划 ) 外 , 工 信 
部 还 将 出 台 促 进 大 数据 产业 发 展 的 推进 计划 ,促进 规划 ,标准 、 技 术 、 产 业 、 安 全 、 应 用 的 协同 
发 展 。 

2016 年 1 月 国务 院 发 布 (关于 组 织 实施 促进 大 数据 发 展 重大 工程 的 通知 》, 提 出 加 快 落 
实 《 大 数据 纲要 》, 从 破解 制约 大 数据 创新 发 展 的 突出 矛盾 和 问题 出 发 ,重点 推进 数据 资源 开 
放 共 享 ,推动 大 数据 基础 设施 统筹 ,打破 数据 资源 壁 从 ,深化 数据 资源 应 用 ,积极 培育 新 兴 
荣 的 产业 发 展 新 业态 。 同 时 通知 提 到 重点 支持 大 数据 示范 应 用 、 重 点 支持 大 数据 共享 开放 、 
重点 支持 基础 设施 统筹 发 展 、 重 点 支持 数据 要 素 流通 。 

2016 年 5 月 25 日 ,由 国家 发 展 改 革 委员 会 .贵州 省 政府 共同 主办 的 “国家 级 ”大 数据 
行业 盛宴 一 一 贵阳 数 博 会 就 要 拉 开 序幕 了 。 这 个 在 全 球 科技 界 范 围 内 都 有 影响 力 的 盛 
会 ,2016 年 恰 逢 身 处 人 工 智 能 、 虚 拟 现实 、 机 器 学 习 等 高 新 科技 热潮 风口 ,因而 更 加 意义 
非凡 。 
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1.4 大 数据 的 度量 和 价值 
1.4.1 大 数据 的 度量 


数据 量 的 大 小 是 用 计算 机 存储 容量 的 单位 来 计算 的 ,基本 的 单位 的 是 字 节 (Byte) ,每 一 
级 按照 千 分 位 递 进 ,如 下 所 示 。 


lByte(B)=8bits 一 个 英文 字母 占用 空间 
1KiloByte( KB) =1024B 相当 于 一 则 短篇 故事 的 内 容 


1MegaByte(MB) 王 1024KB ”相当 于 一 则 短篇 小 说 的 文字 内 容 
1GigaByte(GB) 王 1024MB ”相当 于 贝多 芬 第 五 乐章 交响 曲 的 乐谱 内 容 
1TeraByte(TB) 王 1024GB ”相当 于 一 家 大 型 医院 中 所 有 的 XX 光 图 片 内 容 
lPetaByte(PB) =1024TB 相当 于 50% 的 全 美学 术 研 究 图 书馆 藏书 信息 内 容 
1ExaByte(EB)=1024PB 5EB 相当 于 至 今 全 世界 人 类 所 讲 过 的 话 
lZettaByte(ZB)=1024EB 截至 2010 年 ,人 类 拥有 的 信息 总 量 是 1. 2ZB 
lYottaByte(YB)=1024ZB 

lBrontoByte(BB)=1024YB 


1.4.2 大 数据 的 价值 

研究 表明 ,数据 的 价值 会 随 着 时 间 的 流逝 而 降低 。 简 单 地 说 ,数据 的 价值 与 时 间 是 成 反 
比 的 。 因 此 ,数据 处 理 速度 越 快 ,数据 价值 越 能 够 更 好 地 获取 。 大 数据 的 价值 也 与 它 所 传播 
与 共享 的 范围 有 关 , 使 用 大 数据 的 用 户 越 多 ,范围 越 广 ,信息 的 价值 就 越 大 。 大 数据 价值 的 
充分 发 挥 ,依赖 于 大 数据 的 分 析 和 挖掘 技术 ,更 好 的 分 析 工 具 和 算法 能 够 获得 更 为 准确 的 信 
息 , 也 更 能 发 挥 其 价值 。 总 之 ,大 数据 的 价值 ,可 以 用 如 下 公式 来 简单 定义 : 
大 数据 处 理 以 及 分 析 算法 和 工具 | (大 数据 量 vi, 大 数据 种 类 wm ,高 速 流动 ws) 

大 数据 存在 时 间 





大 数据 价值 〖 





X 大 数据 用 户 数 
因此 ,大 数据 处 理 和 分 析 技 术 对 于 挖掘 大 数据 价值 的 作用 十 分 关键 。 
据 资 料 显 示 , 近 年 来 ,甲骨 文 .IBM 微软 .SAP、 惠 普 等 公司 已 经 在 数据 管理 和 分 析 领 域 
投入 超出 150 亿美 元 。 


大 数据 在 以 下 5 个 方面 创造 价值 。 
(1) 先 见 之 明 一 一 通过 已 经 发 生 的 、 正 在 发 生 的 事件 或 实验 结果 发 现 或 预测 需求 ,洞察 
变化 倾向 。 


(2) 英明 决策 一 一 自动 算法 代替 /支持 人 类 的 决策 。 

(3) 一 目 了 然 一 一 发 现 数据 之 间 的 关系 。 

(4) 有 的 放 矢 一 一 细 分 人 群 .定制 行动 。 

(5) 推陈出新 一 一 创新 的 商业 模式 .产品 和 服务 。 

(摘自 麦肯锡 (大 数据 : 创新 .竞争 和 提高 生产 率 的 下 一 个 新 领域 》 

1. 改变 经 济 社 会 管理 方式 

大 数据 作为 一 种 重要 的 战略 资产 ,已 经 不 同 程度 地 渗透 到 每 个 行业 领域 和 部 门 其 深度 


Te 大 数据 -数据 管理 与 数据 工程 


应 用 不 仅 有 助 于 企业 经 营 活动 ,还 有 利于 推动 国民 经 济 发 展 。 在 宏观 层面 ,大 数据 使 经 济 决 
策 部 门 可 以 更 敏锐 地 把 握 经 济 走向 ,制定 并 实施 科学 的 经 济 政策 。 在 微观 层面 ,大 数据 可 以 
提高 企业 经 营 决策 水 平和 效率 ,推动 创新 ,给 企业 ,行业 领域 带 来 价值 。 大 数据 技术 作为 一 
种 重要 的 信息 技术 ,对 于 提高 安全 保障 能 力 、 应 急 能 力 、 优 化 公共 事业 服务 、 提 高 社会 管理 水 
平 的 作用 正在 日 益 凸 显 ; 在 国防 、 反 您 、 安 全 等 领域 ,应 用 大 数据 技术 能 够 对 来 自 于 多 种 汇 
道 的 信息 快速 进行 自动 分 类 、 整 理 , 分 析 和 反馈 ,有 效 解决 情报 、 监 视 和 侦察 系统 不 足 等 问 
题 ,提高 国家 安全 保障 能 力 。 

除 此 之 外 ,大 数据 还 将 推动 社会 各 个 主体 共同 参与 社会 治理 。 网 络 社会 是 一 个 复杂 、 开 
放 的 巨 系统 ,这 个 巨 系统 打破 了 传统 组 织 的 层级 化 结构 ,呈现 出 扁平 化 特征 。 个 体 的 身份 经 
历 了 从 单位 人 、 社 会 人 到 网 络 人 的 转变 过 程 。 政 府 、 企 业 、 社 会 组 织 、 公 民 等 各 种 主体 都 以 更 
加 平等 的 身份 参与 到 网 络 社 会 的 互动 和 合作 之 中 ,这 对 促进 城市 转型 升级 和 提高 可 持续 发 
展 能 力 、 提 升 社会 治理 能 力 、 实 现 推进 社会 治理 机 制 创新 ,促进 社会 治理 实现 管理 精细 化 、 服 
务 智 慧 化 ,决策 科学 化 .品质 高 端 化 等 具有 重要 作用 。 

2. 促进 行业 融合 发 展 

网 络 环境 、 移 动 终端 随 影 而 行 ,网 上 购物 .社交 网 站 ,电子 邮件 、 微 信 不 可 或 缺 , 社 会 主体 
的 日 常 活动 在 虚拟 的 环境 下 得 到 承载 和 体现 。 正 如 工业 化 时 代 商 品 和 交易 的 快速 流通 催生 
大 规模 制造 业 发 展 , 信 息 的 大 量 ,快速 流通 将 伴随 着 行业 的 融合 发 展 ,使 经 济 形态 发 生 大 范 
围 变 化 。 

大 数据 应 用 的 关键 在 于 分 享 ,各 行业 已 逐渐 意识 到 单一 的 数据 是 没 法 发 挥 最 大 效能 的 ， 
行业 或 部 门 之 间 相 互 交换 数据 已 经 成 为 一 种 发 展 趋势 。 虚 拟 环境 下 ,遵循 类 似 摩 尔 定律 原 
则 增长 的 海量 数据 ,在 技术 和 业务 的 促进 下 ,使 跨 领域 . 跨 系统 、 跨 地 域 的 数据 共享 成 为 可 
能 ,大 数据 支持 着 机 构 业 务 决策 和 管理 决策 的 精准 性 、 科 学 性 以 及 社会 整体 层面 的 业务 协同 
效率 提高 。 

3. 推动 产业 转型 升级 

信息 消费 作为 一 种 以 信息 产品 和 服务 为 消费 对 象 的 活动 ,覆盖 多 种 服务 形态 .多 种 信息 
产品 和 多 种 服务 模式 。 当 围绕 数据 的 业务 在 数据 规模 、 类 型 和 变化 速度 达到 一 定 程度 时 ,大 
数据 对 于 产业 发 展 的 影响 随 之 显现 。 

在 面 对 多 维度 、 爆 发 式 增长 的 海量 数据 时 ,ICT 产业 面临 着 有 效 存储 、 实 时 分 析 、 高 性 能 
计算 等 挑战 ,这 将 对 软件 产业 ,芯片 以 及 存储 产业 产生 重要 影响 ,推动 一 体 化 数据 存储 处 理 
服务 器 、 内 存 计算 等 产品 的 升级 创新 。 对 数据 快速 处 理 和 分 析 的 需求 ,将 推动 商业 智能 、 数 
据 挖掘 等 软件 在 企业 级 的 信息 系统 中 得 到 融合 应 用 ,成 为 业务 创新 的 重要 手段 。 

同时 ,“ 互 联网 十 ”战略 使 大 数据 在 促进 网 络 通信 技术 与 传统 产业 密切 融合 方面 的 作用 
更 加 凸显 ,对 于 传统 产业 的 转型 发 展 ,创造 更 多 价值 影响 重大 。 未 来 ,大 数据 发 展 将 不 仅 催 
生 软 硬件 及 服务 等 市 场 产 生 大 量 价值 ,也 将 对 有 关 的 传统 行业 转型 升级 产生 重要 影响 。 

4. 助力 智慧 城市 建设 

信息 资源 开发 利用 水 平 , 在 某 种 程度 上 代表 着 信息 时 代 下 社会 的 整体 发 展 水 平和 运转 
效率 。 大 数据 与 智慧 城市 是 信息 化 建设 的 内 容 与 平台 ,两 者 互 为 推动 力量 。 智 慧 城 市 是 大 
数据 的 源头 ,大 数据 是 智慧 城市 的 内 核 。 
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针对 政府 ,大 数据 为 政府 管理 提供 强大 的 决策 支持 。 在 城市 规划 方面 ,通过 对 城市 地 
理 、 气 象 等 自然 信息 和 经 济 、 社 会 .文化 ,人口 等 人 文 社 会 信息 的 挖掘 ,可 以 为 城市 规划 提供 
强大 的 决策 支持 ,强化 城市 管理 服务 的 科学 性 和 前 脆性 ; 在 交通 管理 方面 ,通过 对 道路 交通 
信息 的 实时 挖掘 ,能 够 有 效 缓解 交通 拥堵 ,并 快速 响应 突 发 状况 ,为 城市 交通 的 良性 运转 提 
供 科学 的 决策 依据 ; 在 与 情 监控 方面 ,通过 网 络 关键 词 搜索 及 语义 智能 分 析 , 能 提高 与 情 分 
析 的 及 时 人 性、 全 面 性 ,全 面 掌握 社情 民意 ,提高 公共 服务 能 力 , 应 对 网 络 突 发 的 公共 事件 , 打 
击 违法 犯罪 ; 在 安防 领域 ,通过 大 数据 的 挖掘 ,可 以 及 时 发 现 人 为 或 自然 灾害 .恐怖 事件 , 提 
高 应 急 处 理 能 力 和 安全 防范 能 力 。 

针对 民生 ,大 数据 将 提高 城市 居民 的 生活 品质 。 与 民生 密切 相关 的 智慧 应 用 包括 智慧 
交通 、 智 慧 医 疗 ,智慧 家 居 、 智 慧 安 防 等 ,这 些 智慧 化 的 应 用 将 极 大 地 拓展 民众 生活 空间 , 引 
领 大 数据 时 代 智 慧 人 生 的 到 来 。 大 数据 是 未 来 人 们 享受 智慧 生活 的 基础 ,将 改变 传统 “简单 
平面 的 生活 常态 ,通过 大 数据 的 应 用 服务 将 使 信息 变 得 更 加 泛 在 ,使 生活 变 得 多 维和 立体 。 

5. 创新 商业 模式 

大 数据 时 代 , 产 业 发 展 模式 和 格局 正在 发 生 深刻 变革 。 围 绕 着 数据 价值 的 行业 创新 发 
展 将 悄然 影响 各 行 各 业 的 主 营业 态 。 而 随 之 带 来 的 , 则 是 大 数据 产业 下 的 创新 商业 模式 。 

一 方面 围绕 数据 产品 价值 链 而 产生 诸如 数据 租 售 模式 、 信 息 租 售 模式 、 知 识 租 售 模式 
等 。 数 据 租 售 旨 在 为 客户 提供 原始 数据 的 租 售 ; 信息 租 售 旨 在 向 客户 租 售 某 种 主题 的 相关 
数据 集 , 是 对 原始 数据 进行 整合 ,提炼 .萃取 ,使 数据 形成 价值 密度 更 高 的 信息 ; 知识 租 售 旨 
在 为 客户 提供 一 体 化 的 业务 问题 解决 方案 ,是 将 原始 数据 或 信息 与 行业 知识 利用 相 结合 , 通 
过 行业 专家 深入 介入 客户 业务 流程 ,提供 业务 问题 解决 方案 。 

另 一 方面 ,通过 对 大 数据 的 分 析 处 理 , 企 业 现 有 的 商业 模式 、 业 务 流程 .组 织 架 构 、 生 产 
体系 、 营 销 体系 也 将 发 生变 革 。 以 数据 为 中 心 ,挖掘 客户 潜在 需求 ,不 仅 能 够 提升 企业 运作 
的 效率 ,更 可 以 厌 由 数据 重新 思考 商业 社会 的 需求 与 自身 业务 模式 的 转型 ,快速 重 构 新 的 价 
值 链 , 建 立新 的 行业 领导 能 力 ,提升 企业 影响 力 。 

6. 改变 科学 研究 的 方法 论 

大 数据 技术 的 兴起 对 传统 的 科学 方法 论 带 来 了 挑战 和 革命 。 随 着 计算 技术 和 网 络 技 术 
的 发 展 ,采集 ,存储 ,传输 和 处 理 数 据 都 已 经 成 了 容易 实现 的 事情 。 面 对 复杂 对 象 ,我 们 没有 
必要 再 做 过 多 的 还 原 和 精简 ,而 是 可 以 通过 大 量 数据 甚至 是 海量 数据 来 全 面 、 完 整地 刻画 对 
象 , 通 过 处 理 海量 数据 来 找到 研究 对 象 的 规律 或 本 质 。 当 数据 处 理 技术 已 经 发 生 翻 天 覆 地 
的 变化 时 ,在 大 数据 时 代 我 们 需要 的 是 所 有 数据 , 即 * 样 本 三 总 体 ”, 相 比 依赖 于 小 数据 和 精 
确 性 的 时 代 , 大 数据 因为 更 强调 数据 的 完整 性 和 混杂 性 ,突出 事物 的 关联 性 ,为 我 们 解决 问 
题 提供 新 的 视角 ,帮助 我 们 进一步 接近 事实 的 真相 。 


1.5 大 数据 生态 系统 
1.5.1 大 数据 生态 系统 全 貌 


图 1-4 是 Big Data Group 所 描绘 的 大 数据 云图 ,从 图 中 可 以 看 出 ,围绕 大 数据 已 经 逐渐 
演化 发 展 成 为 十 分 繁荣 的 生态 系统 ,里 面包 括 提供 硬件 .操作 系统 软件 ,数据库 软件 .应 用 软 





Um 


\18 大 数据 -数据 管理 与 数据 工程 


件 、 云 平台 软件 ,数据 分 析 、 咨 询 服 务 等 各 种 类 型 业务 的 公司 ,这 些 公司 在 大 数据 基础 设施 层 


和 应 用 层 分 别提 供 不 同类 型 的 服务 ,同类 型 服务 之 间 的 相互 竞争 ,不 同类 型 的 服务 之 间 相 互 
协作 ,共同 形成 一 个 以 大 数据 为 核心 的 服务 协同 生态 系统 。 
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大 数据 生态 系统 的 分 类 ,底层 是 基础 架构 提供 商 和 大 数据 平台 提供 商 , 这 两 类 还 是 以 传 
统 的 软 硬 件 厂商 为 主 。 而 上 层 是 专业 服务 商 和 应 用 服务 商 。 这 两 类 企业 都 是 直接 面 对 最 终 
用 户 的 ,但 一 利 模 式 有 很 大 的 区 别 。 专 业 服 务 商 的 业务 专业 性 比较 强 , 通 常 是 跨 大 数据 领域 
的 多 个 环节 的 ; 而 应 用 服务 商 则 大 部 分 是 在 传统 应 用 里 嵌入 大 数据 的 概念 或 技术 在 业务 模 
式 上 ,专业 服务 商 是 偏重 于 运营 ,而 应 用 服务 商 以 项 目 型 为 主 。 


1.5.2 大 数据 生态 系统 框架 


如 图 1-5 所 示 为 Hadoop 大 数据 生态 系统 框架 。 

1. MapReduce 并 行 计算 框架 

MapReduce 并 行 计算 框架 是 一 个 并 行 化 程序 执行 系统 。 它 提供 了 一 个 包含 Map 和 
Reduce 两 阶段 的 并 行 处 理 模型 和 过 程 .提供 一 个 并 行 化 编程 模型 和 接口 ,让 程序 员 可 以 方 
便 快速 地 编写 出 大 数据 并 行 处 理 程序 。MapReduce 以 键 值 对 数据 输入 方式 来 处 理 数据 ,并 
能 自动 完成 数据 的 划分 和 调度 管理 。 在 程序 执行 时 ,MapReduce 并 行 计算 框架 将 负责 调度 
和 分 配 计算 资源 ,划分 和 输入 输出 数据 ,调度 程序 的 执行 ,监控 程序 的 执行 状态 ,并 负责 程序 
执行 时 各 计算 节点 的 同步 以 及 中 间 结 果 的 收集 整理 。MapReduce 框架 提供 了 一 组 完整 的 
供 程 序 员 开发 MapReduce 应 用 程序 的 编程 接口 。 
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四 
图 1-5 大 数据 生态 系统 框架 


2. 分 布 式 文件 系统 

HDFS( Hadoop Distributed File System , 分 布 式 文件 系统 ) 是 一 个 类 似 于 Google GFS 
的 开源 的 分 布 式 文件 系统 。 它 提供 了 一 个 可 扩展 、 高 可 靠 、 高 可 用 的 大 规模 数据 分 布 式 存储 
管理 系统 ,基于 物理 上 分 布 在 各 个 数据 存储 节点 的 本 地 Linux 系统 的 文件 系统 ,为 上 层 应 用 
程序 提供 了 一 个 逻辑 上 成 为 整体 的 大 规模 数据 存储 文件 系统 。 与 GFS 类 似 , HDFS 采用 多 
副本 (默认 为 三 个 副本 ) 数 据 宛 余 存 储 机 制 .并 提供 了 有 效 的 数据 出 错 检测 和 数据 恢复 机 制 ， 
大 大 提高 了 数据 存储 的 可 靠 性 。 

3. 分 布 式 数据 库 管理 系统 

为 了 克服 HDFS 难以 管理 结构 化 / 半 结 构 化 海量 数据 的 缺点 ,Hadoop 提供 了 一 个 大 规 
模 分 布 式 数据 库 管理 和 查询 系统 HBase。HBase 是 一 个 建立 在 HDFS 之 上 的 分 布 式 数据 
库 , 它 是 一 个 分 布 式 可 扩展 的 NoSQL 数据 库 ,提供 了 对 结构 化 . 半 结 构 化 甚至 非 结 构 化 大 
数据 的 实时 读 写 和 随机 访问 能 力 。HBase 提供 了 一 个 基于 行 、 列 和 时 间 惟 的 三 维 数据 管理 
模型 ,HBase 中 每 张 表 的 记录 数 ( 行 数 ) 可 以 多 达 几 十 亿 条 甚至 更 多 ,每 条 记录 可 以 拥有 多 
达 上 百 万 的 字段 。 

4. 公共 服务 模块 

公共 服务 模块 (Common) 是 一 套 为 整个 Hadoop 系统 提供 底层 支撑 服务 和 常用 工具 的 
类 库 和 API 编程 接口 ,这 些 底层 服务 包括 Hadoop 抽象 文件 系统 FileSystem、 远 程 过 程 调用 
RPC、 系 统 配置 工具 Configuration 以 及 序列 化 机 制 。 在 0. 20 及 以 前 的 版 本 中 ,Common 包 
含 HDFS、MapReduce 和 其 他 公共 的 项 目 内 容 ; 从 0. 21 版 本 开始 ,HDFS 和 MapReduce 被 
分 离 为 独立 的 子 项 目 ,其 余部 分 内 容 构成 Hadoop Common。 

5. 数据 序列 化 系统 

数据 序列 化 系统 (Avro) 是 一 个 数据 序列 化 系统 ,用 于 将 数据 结构 或 数据 对 象 转换 成 便 
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于 数据 存储 和 网 络 传输 的 格式 。Avro 提供 了 丰富 的 数据 结构 类 型 ,快速 可 压缩 的 二 进 制 数 
据 格式 ,存储 持久 性 数据 的 文件 集 ,远程 调用 RPC 和 简单 动态 语言 集成 等 功能 。 

6. 分 布 式 协调 服务 框架 

分 布 式 协调 服务 框架 (Zookeeper) 是 一 个 分 布 式 协调 服务 框架 ,主要 用 于 解决 分 布 式 环 
境 中 的 一 致 性 问题 。Zookeeper 主要 用 于 提供 分 布 式 应 用 中 经 常 需 要 的 系统 可 靠 性 维护 、 
数据 状态 同步 、 统 一 命名 服务 、 分 布 式 应 用 配置 项 管理 等 功能 。Zookeeper 可 用 来 在 分 布 式 
环境 下 维护 系统 运行 管理 中 的 一 些 数据 量 不 大 的 重要 状态 数据 ,并 提供 监测 数据 状态 变化 
的 机 制 ,以 此 配合 其 他 Hadoop 子 系统 (如 HBase、Hama 等 ) 或 者 用 户 开发 的 应 用 系统 , 解 
决 分 布 式 环境 下 系统 可 靠 性 管理 和 数据 状态 维护 等 问题 。 

7. 分 布 式 数据 仓库 处 理工 具 

分 布 式 数据 仓库 处 理工 具 (Hive) 是 一 个 建立 在 Hadoop 之 上 的 数据 仓库 ,用 于 管理 存 
储 于 HDFS 或 HBase 中 的 结构 化 / 半 结 构 化 数据 。 它 最 早 由 Facebook 开发 并 用 于 处 理 并 
分 析 大 量 的 用 户 及 日 志 数 据 ,2008 年 Facebook 将 其 贡献 给 Apache 成 为 Hadoop 开源 项 
目 。 为 了 便于 熟悉 SQL 的 传统 数据 库 使 用 者 使 用 Hadoop 系统 进行 数据 查询 分 析 , Hive 
允许 直接 用 类 似 SQL 的 HiveQL 查询 语言 作为 编程 接口 编写 数据 查询 分 析 程 序 ,并 提供 数 
据 仓 库 所 需要 的 数据 抽取 转换 ,存储 管理 和 查询 分 析 功能 ,而 HiveQL 语句 在 底层 实现 时 被 
转换 为 相应 的 MapReduce 程序 加 以 执行 。 

8， 数据 流 处 理工 具 

数据 流 处 理工 具 (Pig) 是 一 个 用 来 处 理 大 规模 数据 集 的 平台 ,由 Yahoo! 贡献 给 
Apache 成 为 开源 项 目 。 它 简化 了 使 用 Hadoop 进行 数据 分 析 处 理 的 难度 ,提供 一 个 面向 领 
域 的 高 层 抽象 语言 Pig Latin, 通 过 该 语言 ,程序 员 可 以 将 复杂 的 数据 分 析 任 务实 现 为 Pig 操 
作 上 的 数据 流 脚 本 ,这 些 脚 本 最 终 执行 时 将 被 系统 自动 转换 为 MapReduce 任务 链 , 在 
Hadoop 上 加 以 执行 。Yahoo! 有 大 量 的 MapReduce 作业 是 通过 Pig 实现 的 。 

9， 键 值 对 数据 库 系统 

键 值 对 数据 库 系 统 (Cassandra) 是 一 套 分 布 式 的 K-V 型 的 数据 库 系 统 ,最 初 由 
Facebook 开发 ,用 于 存储 邮箱 等 比较 简单 的 格式 化 数据 ,后 Facebook 将 Cassandra 贡献 出 
来 成 为 Hadoop 开源 项 目 。Cassandra 以 Amazon 专 有 的 完全 分 布 式 Dynamo 为 基础 ,结合 
了 Google BigTable 基于 列 族 (Column Family) 的 数据 模型 ,提供 了 一 套 高 度 可 扩展 .最终 
一 致 ,分布 式 的 结构 化 键 值 存储 系统 。 它 结合 了 Dynamo 的 分 布 技术 和 Google 的 BigTable 
数据 模型 ,更 好 地 满足 了 海量 数据 存储 的 需求 。 同 时 ,Cassandra 变更 垂直 扩展 为 水 平 扩 
展 , 相 比 其 他 典型 的 键 值 数据 存储 模型 .Cassandra 提供 了 更 为 丰富 的 功能 。 

10. 日 志 数 据 处 理 系统 

日 志 数 据 处 理 系统 (Chukwa) 是 一 个 由 Yahoo! 贡 献 的 开源 的 数据 收集 系统 ,主要 用 于 
日 志 的 收集 和 数据 的 监控 ,并 与 MapReduce 协同 处 理 数 据 。Chukwa 是 一 个 基于 Hadoop 
的 大 规模 集群 监控 系统 ,继承 了 Hadoop 系统 的 可 靠 性 ,具有 良好 的 适应 性 和 扩展 性 。 它 使 
用 HDFS 来 存储 数据 ,使 用 MapReduce 来 处 理 数据 ,同时 还 提供 灵活 强大 的 辅助 工具 用 以 
分 析 、 显 示 、 监 视 数 据 结果 。 
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11. 科学 计算 基础 工具 库 

科学 计算 基础 工具 库 (Hama) 是 一 个 基于 BSP 并 行 计算 模型 (Bulk Synchronous 
Parallel, 大 同步 并 行 模型 ) 的 计算 框架 ,主要 提供 一 套 支 撑 框 架 和 工具 ,支持 大 规模 科学 计 
算 或 者 具有 复杂 数据 关联 性 的 图 计算 。Hama 类 似 Google 公司 开发 的 Pregel,Google 利用 
Pregel 来 实现 图 遍历 (BFS) 最 短路 径 (SSSP) PageRank 等 计算 。Hama 可 以 与 Hadoop 
的 HDSF 进行 完美 的 整合 ,利用 HDFS 对 需要 运行 的 任务 和 数据 进行 持久 化 存储 。 由 于 
BSP 在 并 行 化 计算 模型 上 的 灵活 性 ,Hama 框架 可 在 大 规模 科学 计算 和 图 计算 方面 得 到 较 
多 应 用 ,完成 矩阵 计算 .排序 计算 PageRank、BFS 等 不 同 的 大 数据 计算 和 处 理 任务 。 

12. 数据 分 析 挖 掘 工具 库 

数据 分 析 挖 掘 工具 库 (Mahout) 来 源 于 Apache Lucene 子 项 目 ,其 主要 目标 是 创建 并 提 
供 经 典 的 机 器 学 习 和 数据 挖掘 并 行 化 算法 类 库 , 以 便 减轻 需要 使 用 这 些 算 法 进行 数据 分 析 
挖掘 的 程序 员 的 编程 负担 ,不 需要 自己 再 去 实现 这 些 算 法 。Mahonut 现在 已 经 包含 聚 类 、 分 
类 、 推 荐 引擎 .频繁 项 集 挖掘 等 广泛 使 用 的 机 器 学 习 和 数据 挖掘 算法 。 此 外 , 它 还 提供 了 包 
含 数据 输入 输出 工具 ,以 及 与 其 他 数据 存储 管理 系统 进行 数据 集成 的 工具 和 构架 。 

13， 关系 数据 交换 工具 

关系 数据 交换 工具 (Sqoop) 是 SQL-to-Hadoop 的 缩写 ,是 一 个 在 关系 数据 库 与 Hadoop 
平台 间 进 行 快速 批量 数据 交换 的 工具 。 它 可 以 将 一 个 关系 数据 库 中 的 数据 批量 导入 
Hadoop 的 HDFS、HBase、Hive 中 ,也 可 以 反 过 来 将 Hadoop 平台 中 的 数据 导入 关系 数据 库 
中 。Sqoop 充分 利用 了 Hadoop MapReduce 的 并 行 化 优点 , 整个 数据 交换 过 程 基 于 
MapReduce 实现 并 行 化 的 快速 处 理 。 

14. 日 志 数 据 收集 工具 

日 志 数 据 收集 工具 (Flume) 是 由 Cloudera 开发 维护 的 一 个 分 布 式 、 高 可 靠 、 高 可 用 、 适 
合 复杂 环境 下 大 规模 日 志 数 据 采 集 的 系统 。 它 将 数据 从 产生 传输 、 处 理 、 输 出 的 过 程 抽象 
为 数据 流 , 并 允许 在 数据 源 中 定义 数据 发 送 方 ,从 而 支持 收集 基于 各 种 不 同 传输 协议 的 数 
据 , 并 提供 对 日 志 数 据 进行 简单 的 数据 过 滤 .格式 转换 等 处 理 能 力 。 输 出 时 ,Flume 可 支持 
将 日 志 数 据 写 往 用 户 定制 的 输出 目标 。 


1.6 大 数据 应 用 研究 方向 


当前 “大 数据 ”这 一 术语 已 经 远 远 超越 了 当初 的 互联 网 或 信息 技术 (IT) 的 技术 范畴 , 变 
成 了 一 个 时 代 的 标志 。 大 数据 时 代 的 到 来 有 其 必然 性 , 当 计 算 和 通信 取得 长 足 进 步 的 时 候 ， 
当 传 感 器 网 络 和 互联 网 等 信息 采集 平台 日 至 完善 的 时 候 .数据 的 存储 管理 和 分 析 处 理 就 自 
然 成 为 关注 的 焦点 。“ 大 数据 ”概念 的 提出 意味 着 信息 技术 领域 的 重点 由 “计算 " 转 为 “ 数 
据 *。 原 来 的 “计算 机 科学 ”也 正在 潜移默化 地 向 “数据 科学 ”转化 。 大 数据 在 科学 研究 (如 地 
球 科学 ,生命 科学 、 高 能 物理 研究 等 ) 和 商业 领域 (如 行为 分 析 、 趋 势 分 析 , 行 情 预 测 、 精 准 营 
销 、 商 品 推荐 等 ) 都 有 成 功 的 应 用 。 互 联网 已 经 成 为 人 们 生活 生产 中 不 可 或 缺 的 环境 和 平 
台 , 正 因为 大 数据 在 互联 网 商业 领域 的 巨大 成 功 ,使 得 这 一 概念 已 经 被 社会 各 个 层面 广泛 认 
可 ,开始 从 线 上 走 到 线 下 , 越 来 越 多 的 人 从 企业 管理 ,社会 治理 ,科学 研究 等 领域 探讨 大 数据 
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人 
的 应 用 。 这 种 来 源 于 应 用 的 关于 大 数据 技术 的 爆发 式 需求 ,推动 了 数据 科学 的 发 展 ,因为 其 
“应 用 驱动 ”的 特点 ,工程 实现 和 应 用 部 署 至 关 重要 ,“ 数 据 科学 与 工程 ”这 一 学 科 名 称 自然 应 
运 而 生 。 因 此 ,基于 以 上 的 认识 ,大 数据 可 以 细 分 为 大 数据 管理 .大 数据 技术 、 大 数据 科学 和 
大 数据 工程 几 个 重点 方向 ,后 面 章 节 将 围绕 这 几 个 方向 进行 详细 曾 述 。 根 据 这 几 个 方向 的 
应 用 相关 性 ,本 书 将 按照 大 数据 管理 与 技术 ,大 数据 科学 与 工程 两 大 类 进行 阐述 。 


1.6.1 大 数据 管理 与 技术 


大 数据 的 出 现 必 将 颠覆 传统 的 数据 管理 方式 ,在 数据 来 源 、 数 据 处 理 方式 和 数据 思维 等 
方面 都 会 对 其 带 来 革命 性 的 变化 。 数 据 思维 要 从 以 计算 为 中 心 转变 到 以 数据 处 理 为 中 心 ， 
这 种 方式 需要 我 们 从 根本 上 转变 思维 。 

传统 数据 管理 是 利用 计算 机 硬件 和 软件 技术 对 数据 进行 有 效 的 收集 、 存 储 、 处 理 和 应 用 
的 过 程 。 其 目的 在 于 充分 有 效 地 发 挥 数据 的 作用 。 实 现 数据 有 效 管理 的 关键 是 数据 组 织 。 
随 着 计算 机 技术 的 发 展 ,传统 数据 管理 经 历 了 人 工 管理 ,文件 系统 、 数 据 库 系统 三 个 发 展 阶 
段 。 在 数据 库 系统 中 所 建立 的 数据 结构 ,更 充分 地 描述 了 数据 间 的 内 在 联系 ,便于 数据 修 
改 、 更 新 与 扩充 ,同时 保证 了 数据 的 独立 性 、 可 靠 、 安 全 性 与 完整 性 ,减少 了 数据 元 余 , 故 提高 
了 数据 共享 程度 及 数据 管理 效率 。 

而 大 数据 管理 是 指数 据 大 小 、 形 态 超出 典型 数据 管理 系统 采集 、 储 存 \ 管 理 和 分 析 等 能 
力 的 大 规模 数据 集 , 而 且 这 些 数 据 之 间 存 在 着 直接 或 间接 的 关联 性 ,通过 大 数据 技术 可 以 从 
中 挖掘 出 模式 与 知识 。 大 数据 技术 是 使 大 数据 中 所 蕴含 的 价值 得 以 挖掘 和 展现 的 一 系列 技 
术 与 方法 ,包括 数据 采集 、 预 处 理 、 存 储 、` 分 析 挖 掘 ` 可 视 化 等 。 大 数据 应 用 ,是 对 特定 的 大 数 
据 集 、 集 成 应 用 大 数据 系列 技术 与 方法 ,获得 有 价值 信息 的 过 程 。 大 数据 技术 的 研究 与 突 
破 ,其 最 终 目 标 就 是 从 复杂 的 数据 集中 发 现 新 的 模式 与 知识 ,挖掘 得 到 有 价值 的 新 信息 。 数 
据 的 量 越 来 越 大 ,种 类 越 来 越 丰富 ,大 数据 时 代 需 要 新 的 数据 管理 手段 。 列 式 `MPP 的 关系 
型 数据 仓库 在 改变 着 .NoSQL 的 CDBMS .GDBMS 也 试图 在 改变 着 。 关 系 型 数据 库 是 企业 
IT 建设 时 代 的 数据 管理 基石 ,而 在 Big Data 时 代 ,也许 需要 一 种 新 的 ,正在 探索 中 的 数据 管 
理 基 石 。 目 前 ,典型 代表 工具 主要 是 Hadoop 生态 系统 相关 技术 ,Storm 等 。 

大 数据 管理 可 以 更 好 地 帮助 人 们 对 数据 进行 分 类 、 归 类 ; 更 好 地 优化 资源 ,更 好 地 识别 
和 预测 行为 。 在 上 述 基础 上 ,大 数据 也 日 益 和 分 类 决策、 预测 等 人 们 的 行为 相互 渗透 ,以 至 
人 们 自己 也 嵌入 到 大 数据 中 ,影响 人 们 的 行为 。 


1.6.2 大 数据 科学 与 工程 


数据 科学 通常 指 基 于 计算 机 科学 、 统 计 学 、 信 息 系统 等 学 科 的 理论 和 技术 ,研究 数据 的 
收集 整理 以 及 从 海量 数据 中 分 析 处 理 , 获 得 有 效 知识 并 加 以 应 用 的 新 兴学 科 ; 数据 工程 是 
指 利用 工程 的 观点 进行 数据 管理 和 分 析 以 及 开展 系统 的 研发 和 应 用 。 数 据 量 的 爆炸 式 增长 
不 但 改变 了 人 们 的 生活 方式 、 企 业 的 运营 模式 ,也 改变 了 科学 研究 的 基本 范式 。 数 据 科学 和 
工程 可 以 作为 支撑 大 数据 研究 与 应 用 的 交叉 学 科 , 其 理论 基础 来 自 多 个 不 同 的 学 科 领 域 , 包 
括 计算 机 科学 、 统 计 学 人工 智 能 、 信 息 系统 .情报 科学 等 。 

与 传统 计算 机 和 软件 工程 等 学 科 相 比 ,“ 数 据 科 学 与 工程 "更 具备 独特 的 学 科 基 础 和 内 
涵 。 数 据 科 学 与 工程 学 科 的 理论 基础 涉及 统计 分 析 、 商 务 智能 以 及 数据 处 理 基 础 ,具体 包括 
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以 下 几 个 方面 。 

(1) 大 数据 表达 理论 方面 : 包括 大 数据 的 生命 周期 演化 与 传播 规律 .数据 科学 与 社会 
学 ,经 济 学 等 之 间 的 互动 机 制 以 及 大 数据 的 结构 与 效能 的 规律 性 。 

(2) 在 大 数据 计算 理论 方面 : 研究 大 数据 的 表示 以 及 大 数据 的 计算 模型 及 其 复杂 性 。 

(3) 在 大 数据 应 用 基础 理论 方面 : 研究 大 数据 与 知识 发 现 , 大 数据 环境 下 的 实验 与 验 
证 方法 以 及 大 数据 的 安全 与 隐私 。 相 比较 而 言 , 计 算 机 科学 学 科 是 研究 算法 的 科学 ,而 数据 
科学 不 局 限于 此 ,其 研究 对 象 是 数据 , 随 着 计算 机 应 用 从 以 计算 为 中 心 逐渐 向 以 数据 为 中 心 
的 迁移 ,数据 科学 与 工程 学 科 的 内 涵 和 外 延 更 加 宽泛 。 软 件 工程 学 科 中 的 相关 技术 提供 了 
数据 分 析 处 理 的 工具 以 及 具体 开发 时 的 范式 。 数 据 处 理 技术 是 数据 研究 领域 的 一 种 重要 的 
研究 方法 ,用 于 研究 和 发 现 数据 本 身 的 现象 和 规律 。 数 据 科学 与 工程 也 不 同 于 传统 的 商业 
智能 和 统计 学 ,商业 智能 主要 从 商业 模式 、 经 济 管理 的 角度 对 数据 应 用 进行 研究 ,而 统计 学 
提供 具体 的 数据 分 析 处 理 的 方法 论 。 


1.7 大 数据 的 挑战 


大 数据 时 代 的 数据 存在 如 下 几 个 特点 : 多 源 异 构 , 分 布 广泛 ,动态 增长 , 先 有 数据 后 有 
模式 。 正 是 这 些 与 传统 数据 管理 过 然 不 同 的 特点 ,使 得 大 数据 时 代 的 数据 管理 和 应 用 面临 
着 新 的 挑战 ,下 面 将 对 其 中 的 主要 挑战 进行 详细 分 析 。 


1.7.1 大 数据 管理 方面 带 来 的 挑战 


大 容量 和 多 种 类 的 大 数据 处 理 将 带 来 企业 信息 基础 设施 的 巨大 变革 ,也 会 带 来 企业 信 
息 技 术 管理 .服务 .投资 和 信息 安全 治理 等 方面 的 新 的 挑战 。 如 何 利用 公有 云 服务 来 实现 企 
业 外 部 数据 的 处 理 和 分 析 ? 对 大 数据 架构 采用 什么 样 的 管理 和 投资 模式 ?对 大 数据 可 能 涉 
及 的 安全 和 数据 隐私 如 何 进 行 保 护 ?》…… 这 些 都 是 企业 应 用 大 数据 需要 面 对 的 挑战 。 


1.7.2 大 数据 技术 方面 带 来 的 挑战 


传统 的 关系 型 数据 库 (RDBMS) 和 结构 化 查询 语言 (SQL) 面 对 大 数据 已 经 不 能 满足 ,更 
高 性 价 比 的 数据 计算 与 存储 计算 和 工具 不 断 涌现 。 对 于 已 经 熟练 掌握 和 使 用 传统 技术 的 企 
业 信 息 技术 人 员 来 说 ,学 习 、 接 受 和 掌握 它 需 要 一 个 过 程 ,从 内 心 也 会 认为 现在 的 技术 和 工 
具足 够 好 ,对 新 技术 产生 一 种 排斥 的 心理 ,怀疑 它 只 是 一 个 新 的 喷头 。 新 技术 本 身 的 不 成 
熟 \ 复 杂 性 和 用 户 不 友好 性 也 会 加 深 这 种 影响 。 但 大 数据 时 代 的 技术 变革 已 经 不 可 逆转 , 企 
业 必 须 积极 迎接 这 种 挑战 ,以 包容 的 方式 迎接 新 技术 ,以 集成 的 方式 实现 新 老 系统 融合 。 


1.7.3 大 数据 工程 方面 带 来 的 挑战 


企业 通过 内 部 ERP、 客 户 关 系 管理 (CRM) ,供应 链 管 理 (SCM) 、BI 等 信息 系统 建设 , 建 
立 高 效 的 企业 内 部 统计 报表 、 仪 表盘 等 决策 分 析 工 具 、 为 企业 业务 敏捷 决策 发 挥 了 很 大 作 
用 。 但是, 这些 数 据 分 析 只 是 冰山 一 角 , 这 些 报 表 和 仪表 盘 其 实 是 “残缺 ”的 ,更 多 潜在 的 有 
价值 的 信息 被 企业 束之高阁 。 大 数据 时 代 , 企 业 业 务 部 门 必须 改变 他 们 看 数据 的 视角 ,更 加 
重视 和 利用 以 往 被 放弃 的 交易 日 志 、 客 户 反馈 、 社 交 网 络 等 数据 。 这 种 转变 需要 一 个 接受 过 
程 ,但 实现 转变 的 企业 则 已 经 从 中 获得 巨大 收益 。 据 有 关 统 计 , 电 子 商务 企业 亚马逊 三 分 之 
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一 的 收入 来 自 大 数据 相似 度 分 析 的 推荐 系统 的 贡献 。 京 东 利 用 大 数据 行为 分 析 模 型 缩短 了 
电子 商务 时 间 一 半 以 上 。 花 旗 银 行 新 产品 创新 的 创意 很 大 程度 来 自 各 个 渠道 收集 到 的 客户 
反馈 数据 。 因 此 ,在 大 数据 时 代 , 业 务 部 门 需要 以 新 的 视角 来 面 对 大 数据 ,接受 和 利用 好 大 
数据 ,创造 更 大 的 业务 价值 。 

大 数据 最 根本 的 挑战 是 显而易见 的 : 你 现在 的 和 潜在 的 对 手 总 是 比 你 更 善于 利用 他 们 
自己 数据 的 潜在 价值 。 首 先 他 们 能 以 更 快 的 步伐 和 更 小 的 代价 重组 企业 ,其 次 他 们 能 获取 
实时 有 效 的 信息 来 制定 决策 ,最 后 他 们 能 在 新 产品 和 新 市 场 上 立 于 不 败 之 地 。 简 言 之 ,游戏 
的 赢家 往往 是 那些 更 了 解 市 场 和 消费 者 并 根据 这 些 信息 采取 行动 的 人 。 


“ 大 数据 战略 
.2 与 商业 模式 变革 


使 -ee-e 


2.1 大 数据 战略 


纵 观 全 球 大 数据 应 用 领先 的 国家 ,其 产业 政策 大 都 具有 以 下 特征 : 将 大 数据 提升 到 国 
家 战略 层面 进行 布局 ; 颁布 配套 产业 政策 扶持 大 数据 推广 ; 探索 数据 隐私 法 来 应 对 数据 

信息 技术 与 经 济 社会 的 交汇 融合 引发 了 数据 迅猛 增长 ,数据 已 成 为 国家 基础 性 战略 资 
源 , 大 数据 正 日 益 对 全 球 生产 ,流通 ,分 配 、 消 费 活动 以 及 经 济 运行 机 制 、 社 会 生活 方式 和 国 
家 治理 能 力 产 生 重 要 影响 。 大 数据 是 21 世纪 以 来 能 够 实现 弯 道 超车 的 行业 之 一 ,各 国都 将 
其 作为 重要 战略 进行 推广 ,主要 措施 有 加 大 国家 数据 开放 程度 、 扶 持 技术 发 展 、 推 出 产业 扶 
持 政 策 、 政 府 立 项 来 实现 大 数据 的 推广 。 随 着 数据 的 逐渐 开放 和 数据 利用 程度 的 迅速 提高 ， 
必然 会 面临 隐私 保护 的 难题 。 因 此 各 国 也 在 尝试 制定 数据 隐私 保护 条 例 。 如 图 2-1 所 示 为 
大 数据 战略 规划 图 例 。 
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图 2-1 大 数据 战略 规划 图 


“战略 规划 ” 层 旨 在 通过 分 析 国 家 级 大 数据 战略 或 规划 ,探析 西方 国家 发 展 大 数据 的 目 
标定 位 、 主 要 内 容 、 重 点 发 展 的 大 数据 应 用 领域 ,以 及 相应 的 管理 体制 等 ,总 结 各 国 大 数据 战 
略 规划 特色 及 要 点 。 战 略 规划 的 制定 为 大 数据 技术 能 力 储备 .大 数据 推广 应 用 与 项 目 实施 
提供 宏观 指导 与 执行 依据 。 

“大 数据 管理 与 技术 " 层 探讨 各 国政 府 在 大 数据 技术 储备 方面 的 相关 政策 措施 ,包括 基 
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础 研究 部 署 . 核 心 技 术 研 发 .为 相关 产业 和 研究 机 构 提供 的 技术 创新 扶持 、 人 才 培 养 以 及 技 
术 研 发 资金 保障 等 。 技 术 能 力 提升 为 战略 规划 的 落地 提供 技术 方面 的 支撑 。 

“大 数据 工程 与 科学 ? 层 从 推进 政策 和 项 目 实施 两 个 角度 ,研究 为 确保 大 数据 推广 应 用 
与 项 目 实施 而 制定 的 各 项 政策 ,包括 数据 开放 政策 .数据 共享 政策 .数据 安全 与 隐私 保护 政 
策 , 以 及 政府 和 商业 领域 的 试点 项 目 规划 等 。 数 据 工程 为 战略 规划 的 落地 提供 制度 支撑 和 
实施 保障 。 


2.1.1 国外 大 数据 战略 视角 


全 球 已 经 进入 大 数据 时 代 , 互 联网 上 的 数据 量 每 两 年 会 翻 一 番 。 截 至 2013 年 ,全 球 数 
量 为 4.3ZB,2020 年 有 望 达 到 40ZB。 

如 果 将 数据 视 为 一 种 生产 资料 ,大 数据 将 是 下 一 个 创新 .竞争 .生产 力 提 高 的 前 沿 , 是 信 
息 时 代 新 的 财富 ,价值 堪 比 石油 。 大 数据 所 能 带 来 的 巨大 商业 价值 ,被 认为 将 引领 一 场 足以 
与 20 世纪 计算 机 革命 匹敌 的 巨大 变革 。 根 据 IDC 预测 ,2015 年 大 数据 市 场 规 模 将 从 2010 
年 的 32 亿美 元 增长 到 170 亿美 元 ,复合 年 增长 率 为 40%。 

当前 ,世界 各 国政 府 和 国际 组 织 都 认识 到 了 大 数据 的 重要 作用 ,纷纷 将 开发 利用 大 数据 
作为 夺取 新 一 轮 竞 争 制高点 的 重要 抓 手 ,实施 大 数据 战略 。 世 界 工 业 发 达 国家 纷纷 制定 相 
关 政 策 , 积 极 推动 大 数据 相关 技术 的 研发 与 落实 。 

1. 美国 大 数据 战略 一 一 制定 计划 、 加 强 立 法 

2011 年 ,总 统 科 技 顾 问 委员 会 提出 建议 ,认为 大 数据 具有 重要 战略 意义 ,但 联邦 政府 在 
大 数据 相关 技术 方面 的 投入 不 足 。 作 为 回应 ,美国 白宫 科学 和 技术 政策 办 公 室 (OSTP) 建 
立 了 大 数据 高 级 监督 组 以 协调 和 扩大 政府 对 该 领域 的 投资 ,并 牵头 编制 了 《大 数据 研究 与 发 
展 计划 》( 以 下 简称 (4 计划》)。2012 年 3 月 29 日 《计划 》 正 式 对 外 发 布 ,标志 着 美国 率先 将 
大 数据 上 升 为 国家 战略 。 

《计划 》 旨 在 大 力 提升 美国 从 海量 复杂 的 数据 集合 中 获取 知识 和 洞 见 的 能 力 。 有 具体 实现 
以 下 三 个 目标 。 

(1) 开发 能 对 大 量 数据 进行 收集 ,存储 、 维 护 .管理 .分 析 和 共享 的 最 先进 的 核心 技术 ; 

(2) 利用 这 些 技术 加 快 科学 和 工程 学 领域 探索 发 现 的 步伐 ,加 强国 家 安全 ,转变 现 有 的 
教学 方式 ; 

(3) 扩大 从 事 大 数据 技术 开发 和 应 用 的 人 员 数 量 。 

第 一 波 纳入 计划 》 的 联邦 政府 部 门 主 要 有 : 国家 科学 基金 会 .国家 卫生 研究 院 、 能 源 
部 、 国 防 部 、 国 防 部 高 级 研究 计划 局 .地 质 勘 探 局 等 ,投资 两 亿 多 美元 ,推动 大 数据 技术 研发 。 
大 数据 发 展 不 能 仅 靠 政府 ,因此 《计划 》 还 鼓励 产业 、 大 学 和 研究 机 构 、 非 一 利 机 构 与 政府 一 
起 努力 ,共享 大 数据 提供 的 机 遇 。 

2014 年 5 月 1 日 ,美国 白宫 发 布 了 (美国 白宫 : 2014 年 全 球 “ 大 数据 ”白皮书 ,阐述 了 
大 数据 带 来 的 机 遇 与 挑战 。 报 告 认为 ,大 数据 技术 为 美国 经 济 、 人 民 的 健康 和 教育 .国家 安 
全 、 能 源 利用 率 等 提供 了 难得 的 机 遇 , 同 时 ,报告 也 揭露 了 大 数据 为 美国 社会 带 来 的 问题 ,其 
中 最 重要 的 是 个 人 隐私 问题 。 

该 白皮书 中 列举 的 奥巴马 政府 关于 公开 数据 的 举措 包括 政府 公开 数据 计划 “我 的 大 数 
据 ? 计 划 等 。 政 府 公开 数据 计划 为 联邦 数据 管理 工作 提出 了 新 的 准则 : 在 保护 好 隐私 安全 
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性 与 机 密 性 的 同时 ,将 数据 公开 化 以 及 可 读 写 化 纳入 政府 的 义务 范围 。“ 我 的 大 数据 ”计划 
具体 包括 “ 蓝 纽扣 ”计划 “创建 副本 ”计划 、“ 绿 纽扣 ”计划 “我 的 学 生 数 据 ” 计 划 。“ 蓝 纽扣 ” 
允许 消费 者 安全 地 获取 他 们 的 健康 信息 ,使 得 他 们 可 以 更 好 地 管理 他 们 的 健康 与 经 济 状况 ， 
并 与 信息 提供 者 交换 相关 信息 “创业 副本 ”计划 将 纳税 人 的 信息 数据 加 以 共享 ,纳税 人 可 
以 通过 它 获 得 他 们 自己 最 近 三 年 的 纳税 记录 ,这 使 得 居民 进行 抵押 、 学 生 贷 款 、 商 务 贷款 等 
活动 与 填写 纳税 表 更 加 便捷 。“ 绿 纽扣 ”计划 为 家 庭 与 企业 提供 了 便捷 的 途径 来 获得 他 们 的 
能 源 使 用 信息 以 更 好 地 管理 他 们 的 能 源 消耗 状况 来 达到 节约 资源 的 目的 。“ 我 的 学 生 数 据 ” 
计划 是 教育 部 将 助学金 免费 申请 表 与 联邦 助 学 情 况 的 一 些 信息 共享 ,这 些 信 息 赛 括 借贷 、 补 
助 金 .注册 与 超额 偿付 等 方面 的 具体 事项 ,这 使 得 学 生 与 资助 人 能 够 上 网 下 载 所 需 信 息 资 
源 。 在 这 些 计 划 中 ,信息 都 是 通过 “注重 使 用 者 体验 “机 器 可 读 写 ”“ 文 本 信息 平面 化 ”的 方 
式 实现 共享 的 。 

此 外 ,美国 政府 认为 目前 大 数据 应 用 中 最 严峻 的 挑战 是 如 何 保护 隐私 ,并 且 正 在 不 断 修 
改 相关 法 律 法 规 以 加 强 隐私 保护 ,提出 未 来 的 改进 重点 在 于 : 改进 消费 者 隐私 权 法 案 、 通 过 
有 关 国 家 数据 外 泄 的 立法 、 保 护 非 美 籍 人 士 隐 私 、 规 范 在 校 学 生 数据 采集 使 用 、 修 正 电子 通 
信和 隐私 法 等 。 

2. 澳大利亚 大 数据 战略 

2012 年 10 月 ,澳大利亚 政府 发 布 (澳大利亚 公共 服务 信息 与 通信 技术 战略 2012 
2015》, 强 调 应 增强 政府 机 构 的 数据 分 析 能 力 从 而 实现 更 好 的 服务 传递 和 更 科学 的 决策 ,并 
将 制定 一 份 大 数据 战略 作为 战略 执行 计划 之 一 。2013 年 2 月 ,澳大利亚 政府 信息 管理 办 公 
室 (AGIMO) 成 立 了 跨 部 门 工 作 组 一 一 * 大 数据 工作 组 ”, 启 动 了 《公共 服务 大 数据 战略 》( 以 
下 简称 (战略) 制定 工作 ,并 于 2013 年 8 月 正式 对 外 发 布 。 

《战略 》 以 6 条 “大 数据 原则 ”为 指导 , 旨 在 推动 公共 部 门 利用 大 数据 分 析 进 行 服务 改革 ， 
制定 更 好 的 公共 政策 ,保护 公民 隐私 。 这 6 条 大 数据 原则 分 别 为 : 数据 是 一 种 国家 资产 ,应 
被 用 于 人 民 福 社 ; 数据 共享 和 大 数据 项 目 开发 过 程 中 严 保 用 户 隐私 ; 数据 完整 和 过 程 透 
明 ; 政府 部 门 间 以 及 政府 与 产业 间 应 共享 技术 资源 和 能 力 ; 与 产业 和 学 术 界 广泛 合作 ; 加 
强 政府 数据 开放 。《 战 略 》 还 决定 成 立 数据 分 析 卓 越 中 心 (DACOE) ,该 中 心 将 通过 构建 一 
个 通用 的 能 力 框架 帮助 政府 部 门 获 得 数据 分 析 能 力 , 并 促成 政府 与 第 三 方 机 构 合 作 以 培养 
分 析 技 术 专 家 。《 战 略 ) 列 举 了 2014 年 7 月 前 需 完 成 的 6 项 大 数据 行动 计划 ,分 别 为 : 制定 
信息 资产 登记 禾 ; 跟踪 大 数据 分 析 的 技术 发 展 ; 制定 大 数据 最 佳 实践 指南 ; 总 结 明确 大 数 
据 分 析 面 临 的 各 种 障碍 ; 强化 大 数据 分 析 的 相关 技术 和 经 验 ; 制定 数据 分 析 指 南 。 具 体 工 
作 由 大 数据 工作 组 与 数据 分 析 卓 越 中 心 协作 完成 。 

3. 英国 大 数据 战略 一 一 做 好 战略 布局 .获取 商业 利益 .树立 政府 形象 

英国 政府 积极 应 对 大 数据 时 代 的 挑战 ,并 且 通 过 透明 政府 .智慧 政府 责任 政府 等 一 系 
列 战略 布局 在 获取 大 数据 带 来 的 商业 利益 的 同时 树立 开放 的 政府 形象 。 

英国 政府 十 分 重视 大 数据 的 开放 。 早 在 2012 年 12 月 ,英国 数据 战略 委员 会 成 立 了 世 
界 上 首 个 非 一 利 性 的 开放 数据 协会 (Open Data Institute, ODD ,目的 就 是 推动 开放 数据 的 
进程 。ODI 是 非 一 利 性 组 织 , 它 把 人 们 感 兴趣 的 所 有 数据 融会 贯通 在 一 起 ,每 个 行业 的 各 
个 领域 一 方面 产生 各 种 数据 而 另 一 方面 又 可 以 利用 这 些 数据 。 英 国政 府 通过 利用 和 挖掘 公 
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开 数据 的 商业 潜力 ,为 英国 公共 部 门 `, 学 术 机 构 等 方面 的 创新 发 展 提供 “孵化 环境 ”, 同 时 为 
国家 可 持续 发 展 政策 提供 进一步 的 帮助 。 据 英国 教育 和 科技 部 长 戴 维 . 威 利 茨 介绍 ,ODI 
研究 所 将 为 那些 对 公众 有 益 的 商业 企业 活动 提供 数据 背景 支持 ,这 将 释放 新 的 商业 潜力 , 推 
动 经 济 发 展 以 及 个 人 收入 增长 的 新 形式 。 

2013 年 10 月 31 日 ,英国 发 布 ( 把 握 数据 带 来 的 机 遇 : 英国 数据 能 力战 略 》。 该 战略 由 
英国 商业 、 创 新 与 技术 部 牵头 编制 。 战 略 旨 在 促进 英国 在 数据 挖掘 和 价值 萃取 中 的 世界 领 
先 地 位 ,为 英国 公民 、 企 业 、 学 术 机 构 和 公共 部 门 在 信息 经 济 条件 下 创造 更 多 收益 。 为 实现 
上 述 目标 ,该 战略 从 提升 数据 分 析 技术 .加 强国 家 基础 设施 建设 .推动 研究 与 产业 合作 、 确 保 
数据 被 安全 存 取 和 共享 等 几 个 方面 做 出 了 部 署 ,并 做 出 11 项 行动 承诺 ,确保 战略 目标 得 以 
落地 。 

英国 政府 还 要 求 各 公共 部 门 在 互联 网 (http://data. gov. uk) 上 开通 开放 数据 的 通道 ， 
向 全 社会 开放 政府 管理 ,机 构 运营 以 及 各 项 统计 数据 等 相关 信息 。 

在 此 基础 上 ,英国 政府 发 布 了 (开放 数据 白皮书 》, 建 立 了 一 套 对 公共 部 门 开 放 数据 程度 
的 评价 体系 ,对 各 公共 部 门 完成 开放 数据 任务 情况 进行 审计 ,以 促进 英国 公共 服务 数据 的 开 
放 性 。 

4. 日 本 大 数据 战略 一 一 将 大 数据 作为 ICT 战略 重点 ,开发 大 数据 应 用 

2012 年 6 月 ,IT 战略 本 部 发 布 了 电子 政务 开放 数据 战略 草案 ,宣称 政府 将 利用 标准 化 
技术 生产 信息 确保 国民 方便 获取 数据 ,并 保证 紧急 情况 下 以 较 少 流量 向 手机 用 户 推 送信 息 。 
2012 年 7 月 ,日 本 总 务 省 发 布 (面向 2020 年 的 ICT 综合 战略 》, 重 点 开发 大 数据 应 用 所 需 智 
能 技术 ,创新 传统 IT 产业 ,活跃 "ICT 的 日 本 ”。 

2013 年 6 月 ,安倍 政府 再 颁 新 战略 “创建 最 尖端 IT 国家 ”, 阅 述 了 2013 一 2020 年 间 以 
开放 公共 数据 和 大 数据 为 核心 ,在 日 本 建成 世界 最 高 水 准 广泛 运用 信息 产业 技术 社会 ”的 
目标 。“ 创 建 最 尖端 IT 国家 ”战略 的 要 点 包括 : 向 民间 开放 公共 数据 .促进 大 数据 的 、 促 进 
个 人 数据 的 流通 与 运用 、 实 现 农业 的 知识 产业 化 、 构 筑 医疗 信息 连接 网 络 、 活 用 IT 技术 对 
社会 基础 设施 进行 维护 管理 ,改革 国家 及 地 方 的 行政 信息 系统 等 。 

日 本 大 数据 产业 发 展 中 ,在 个 人 信息 保护 法 等 法 律 基 础 设施 方面 落后 于 欧美 国家 ,关于 
个 人 信息 ,保护 隐私 等 问题 ,日 本 政府 将 成 立 研究 机 制 针对 法 律 措施 的 必要 性 等 展开 研究 ， 
修改 和 进一步 完善 个 人 信息 保护 法 规 也 已 经 被 提 上 日 程 。 

5. 联合 国 一 一 共 建 实验 室 . 推 动 大 数据 解决 全 球 问 题 的 创新 模式 

2014 年 5 月 14 日 ,联合国 秘书 长 潘 基文 倡议 “联合 国 全球 脉 动 发 起 “大 数据 应 对 气候 
挑战 ”, 推 动 利 用 大 数据 和 分 析 手 段 采取 气候 行动 和 提出 创新 办 法 ,并 将 其 中 的 两 个 获胜 项 
目 “ 提 供 森 林 实 时 信息 的 监控 系统 ”和 * 为 哥伦比亚 农民 推广 气候 智能 型 农业 的 工具 ” 列 入 联 
合 国 秘书 长 2014 年 气候 峰会 。 

2014 年 8 月 ,联合 国 开发 计划 署 首次 携手 科技 企业 共 建 大 数据 实验 室 。 大 数据 联合 
实验 室 将 利用 大 数据 技术 和 联合 国 的 全 球 发 展 经 验 , 在 环境 保护 、 医 疗 与 疾病 预防 、 教 
育 、 扶 贫 等 诸多 领域 进行 深入 的 研究 分 析 ,推动 大 数据 解决 全 球 问 题 的 创新 模式 ,促进 可 
持续 发 展 。 
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国家 大 数据 战略 情况 比较 见 表 2-1。 


表 2-1 发 达 国 家 大 数据 战略 比较 














国家 | 战略 规划 名 称 | 。 战略 目标 成 略 内 容 ”| 重点 发 展 领域 | ”管理 体制 
研发 核心 技术 科 避 研 宛 ， 有 1 证 科 学 和 技术 政策 
时 国 。 | 大 数 据 研究 与 发 推动 科技 进步 和 | 率 关 部门; 核心 | 半年 下 ”向 办公室 战略 制定 大 
于 | 展 计 划 国家 安全 :培养 | 项 目 ; 资金 投入 | 个 。 人 | 数据 高 级 监督 组 监督 
大 数据 人 才 ”| 执行 
推动 公共 部 门 利 | 未 来 机 明 与 收益 ; 设立 跨 部 门 大 数据 分 
次 大 利 王 | 公共 服务 大 数据 | 用 大 数据 分 析 创 | 大 数据 应 用 原则 |。 | 工 组 负责 训 咯 落地 ， 
战略 新 服务 .制定 最 佳 | 行动 计划 及 部 站 成 立 数据 分 析 卓 越 中 
公共 政策 分 工 心 负责 配合 执行 
英国 统计 局 和 经 济 社 
会 研究 委员 会 负责 政 
强化 数据 分 析 技 府 的 数据 能 力 提升 ， 
Wn 术 ; 加 强国 家 基 信息 化 基础 设施 领导 
本 区 国 数据 能 力 | 渤 浊 和 从 生 革 了 | 机 设施 建设 ; 失 | 理事 会 负责 大 数据 基 
战略 的 世界 领先 地 位 动 研究 与 产 研 合 础 设施 建设 ; 各 行业 
. 作 ， 确保 数据 被 协会 负责 本 行业 数据 
安全 存 取 和 共享 能 力 建设 ; 信息 经 济 
委员 会 负责 制定 具体 
战略 实施 路 径 
.| 促进 本 国 大 数据 | 人 人 才 培 养 基础 | 
法 国 发展 ,推动 经 济 社 | 设 施 建 设 : 次 金太! 
、 会 发 展 扶持 ;项目 规 划 和 











2.1.2 国内 大 数据 战略 视角 
大 数据 产业 发 展 是 云 计算 技术 , 物 联网 移动 互联 网 迅速 发 展 和 广泛 应 用 的 结果 。 美 











国 . 日 本 、 法 国 .韩国 .澳大利亚 等 国家 相继 启动 了 推动 大 数据 产业 发 展 的 政策 改革 ,并 把 大 
数据 产业 发 展 纳入 国家 发 展 战略 ,通过 有 力 的 资金 和 政策 支持 加 强大 数据 研究 ,优化 其 发 展 
环境 ,抢占 大 数据 产业 发 展 的 制高点 ,使 其 成 为 推动 国民 经 济 社会 发 展 的 新 手段 。 鉴 于 发 达 
国家 对 大 数据 产业 的 强力 推动 ,大 数据 在 经 济 、 国 家 安全 、 社 会 .科研 等 方面 的 巨大 价值 和 适 





应 经 济 社会 发 展 的 要 求 , 中 国 各 级 政府 和 社会 各 界 也 纷纷 制定 相关 政策 推动 大 数据 产业 深 
和 人 发 展 ,如 表 2-2 所 示 。 

运用 大 数据 推动 经 济 发 展 、 完 善 社会 治理 ,提升 政 府 服 务 和 监管 能 力 正成 为 趋势 ,我 国 
相继 制定 实施 大 数据 战略 性 文件 ,大 力 推动 大 数据 发 展 和 应 用 。 目 前 ,我 国 互 联网 ,移动 互 
联网 用 户 规模 居 全 球 第 一 ,拥有 丰富 的 数据 资源 和 应 用 市 场 优势 ,大 数据 部 分 关键 技术 研发 
取得 突破 ,涌现 出 一 批 互 联网 创新 企业 和 创新 应 用 ,一 些 地 方 政府 已 启动 大 数据 相关 工作 。 
坚持 创新 驱动 发 展 ,加 快 大 数据 部 署 .深化 大 数据 应 用 ,已 成 为 稳 增 长 , 促 改革 、 调 结构 、 惠 民 
生 和 推动 政府 治理 能 力 现代 化 的 内 在 需要 和 必然 选择 。 
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大 数据 -数据 管理 与 数据 I 程 
表 2-2 国内 大 数据 战略 进度 
时 间 部 门 政策 行动 名 称 政策 行动 内 容 
(二 三 二 "国家 成 厂 性 新 | 国 硬 提出 支持 海量 数据 存储 \ 处 再 技 术 
92 国务 区 兴 产 业 发 展 规划 》 的 研发 和 产业 化 
工业 和 信息 化 部 .发 展 改 革 委 | Ts 
2013.1 | 员 会 .国土 资源 部 .国家 电力 Fe eg 建设 超大 型 数据 中 心 
监管 委员 会 .能源 局 等 五 部 委 | 
ee 通过 实施 * 寓 带 中 国 "成 略 和 扩大 "信息 
2013.8 | 国务 院 ee 费 * 的 方式 ,推动 数据 中 心 和 数据 中 心 
市 场 发 展 
推动 商业 企业 加 快 信息 基础 设施 升级 
eg (关于 促进 信息 消费 扩大 | 增强 信息 产品 供给 能 力 ,形成 行业 联 
li 内 需 的 若干 意见 》 盟 ,制定 行业 标准 ,构建 大 数据 产业 链 ， 
促进 创新 链 与 产业 链 有 效 嫁接 
发 展 改革 委员 会 .工业 和 信息 提出 加 强 基于 云 计算 的 大 数据 开发 与 
2014 8 | 化 部 ,科技 部 .公安 部 、 财 政 |( 关 于 促进 智 正 城市 健康 | 利用, 在 电子 商务 ,工业 设计 、 科 学 研 
5 | 部、 国土 资源 局 、 住 房 建设 部 ,| 发 展 的 指导 意见 》 究 .交通 运输 等 领域 ,创新 大 数据 商业 
交通 运输 部 模式 ,服务 城市 经 济 社会 发 展 
新 兴 产 业 和 新 兴业 态 是 竞争 高 地 ,制定 
“互联 网 十 "行动 计划 ,推动 移动 互联 
2015 年 中 央 政府 工作 | 网 . 云 计算 .大 数据 . 物 联 网 等 与 现代 制 
= 
| 告 造 业 结合 ,促进 电子 商务 .工业 互联 网 
和 互联 网 金融 健康 发 展 ,引导 互联 网 企 
业 拓展 国际 市 场 
(他 新 投资 管理 方式 建立 | 
2015. 3 | 发 展 改 革 委 员 会 协同 监管 机 制 的 若干 外 
新 监管 的 方式 
意见 》 
将 加 快 云 计算 与 物 联 网 .移动 互联 网 、 
加 快 推进 云 计算 与 大 数 | 现代 制造 业 的 融合 发 展 与 创新 应 用 , 积 
2015.6 » 言 息 化 冯 a a 
人 据 标准 体系 建设 极 培育 新 业态 .新 产业 ,加 快 推进 云 计 
算 与 大 数据 标准 体系 建设 
《国务 院 办 公 厅 关于 运用 | ，， 要 
2015.7 | 国务院 大 数据 加 强 对 市 场 主体 tie et 
服务 和 监管 的 若干 意见 》 
天 数据 产业 第 一 次 明确 出现 在 规划 中 
_ 将 编制 (大 数据 产业 “十 | 还 将 出 台 促 进 大 数据 产业 发 展 的 推进 
ee 三 五 "发 展 规划 》 计划 ,促进 规划 ,标准 .技术 、 产 业 、 安 
全 .应 用 的 协同 发 展 
推动 移动 互联 网 . 云 计算 .大 数据 . 物 联 
Po (积极 推进 “互联 网 十 " 行 | 网 等 与 现代 制造 业 结 合 ,促进 电子 商 
a 动 的 指导 意见 》 务 .工业 互联 网 和 互联 网 金融 健康 发 
展 ,引导 互联 网 企业 拓展 国际 市 场 
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时 间 部 门 政策 行动 名 称 政策 行动 内 容 

一 是 打造 精准 治理 、 多 方 协作 的 社会 治 
理 新 模式 ; 二 是 建立 运行 平稳 .安全 高 
效 的 经 济 运行 新 机 制 ; 三 是 构建 以 人 为 








2015. 8 | 国务 院 NI 本 、 惠 及 全 民 的 民生 服务 新 体系 ; 四 是 
开启 大众 创业 、 万 众 创新 的 创新 驱动 新 
格局 ; 五 是 培育 高 端 智能 .新兴 繁荣 的 
产业 发 展 新 生态 
制定 大 数据 标准 体系 ,已 经 开展 数据 质 
绸 织 起 划 ( 大 数据 标准 化 | 数据 安全 数据 开放 共享 和 交易 等 


2015.9 | 工业 和 信息 化 部 白皮书 》 方面 的 多 项 国家 标准 的 立项 和 研制 工 
作 , 同 时 还 要 积极 参与 ISO/IEC ITU 
等 国际 标准 制定 工作 ,与 国际 同步 发 展 
《中 共 中 央 关 于 制定 国民 | 实施 网 络 强国 战略 ,实施 “互联 网 十 ” 行 
2015. 10 | 十 八 届 五 中 全 会 经 济 和 社会 发 展 第 十 三 | 动 计划 ,发 展 分 享 经 济 ,实施 国家 大 数 
个 五 年 规划 的 建议 》 据 战略 
提出 加 快 落实 (大 数据 纲要 》, 从 破解 制 
约 大 数据 创新 发 展 的 突出 矛盾 和 问题 
《关于 组 织 实施 促进 大 数 | 出 发 ,重点 推进 数据 资源 开放 共享 , 推 
据 发 展 重大 工程 的 通知 )| 动 大 数据 基础 设施 统筹 ,打破 数据 资源 
壁 合 ,深化 数据 资源 应 用 ,积极 培育 新 
兴 繁 荣 的 产业 发 展 新 业态 








2016. 1 | 国务 院 











2014 年 ,国务 院 出 台 的 (国家 新 型 城镇 化 规划 (2014 一 2020 年 )》 中 ,强调 重点 扶持 大 数 
据 等 新 一 代 信息 技术 创新 应 用 。 工 业 和 信息 化 部 提出 了 支持 大 数据 关键 技术 产品 的 研发 和 
产业 化 等 具体 举措 。 国 家 发 展 和 改革 委员 会 开展 “信息 化 (大 数据 ) 提 升 政府 治理 能 力 ” 课 题 
研究 ,并 与 工业 和 信息 化 部 联合 起 草 了 关于 促进 大 数据 发 展 和 应 用 的 意见 等 ; 全 国信 息 技 
术 标 准 化 技术 委员 会 .数据 中 心 联盟 等 行业 机 构 在 大 数据 标准 和 服务 基础 测试 方面 取得 一 
定 成 果 , 如 表 2-3 所 示 。 

新 一 代 信息 技术 与 经 济 社会 各 领域 的 深度 融合 ,引发 了 数据 量 的 爆发 式 增长 ,使 得 数据 
资源 成 为 国家 重要 的 战略 资源 和 核心 创新 要 素 。 未 来 , 随 着 我 国 经 济 发 展 进 入 新 常态 ,大 数 
据 将 在 稳 增 长 , 促 改革 、 调 结构 、 惠 民生 中 承担 越 来 越 重 要 的 角色 ,在 经 济 社会 发 展 中 的 基础 
性 ,战略 性 、 先 导 性 地 位 也 将 越 来 越 突出 。 同 时 ,大 数据 也 将 重 构 信息 技术 体系 和 产业 格局 ， 
为 我 国信 息 技术 产业 的 发 展 提供 巨大 机 遇 。 

欧美 等 国家 已 经 出 台 国家 战略 :对 其 国内 产业 发 展 起 到 积极 的 推进 作用 。 大 数据 发 展 
的 生态 环境 比较 复杂 ,产业 格局 尚未 形成 ,需要 国家 层面 的 战略 规划 指明 大 数据 的 发 展 方 
向 、 发 展 重点 和 发 展 路 径 ,并 处 理 好 数据 的 开放 ,技术 .应 用 、 安 全 等 问题 。 随 着 2015 年 9 月 
《促进 大 数据 发 展 行动 纲要 》 的 出 台 . 赋 予 了 大 数据 作为 建设 数据 强国 、 提 升 政府 治理 能 力 推 
动 经 济 转型 升级 的 战略 地 位 ,国家 出 台 各 项 促进 大 数据 产业 发 展 政策 ,强调 产业 间 融 合 协调 
促进 共 发 展 ,同时 鼓励 支持 和 指导 地 方 大 数 据 产 业 和 应 用 发 展 ,在 出 台 产 业 扶持 政策 .开展 
数据 共享 交易 ,法律 法 规 等 方面 成 效 显著 。 
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表 2-3 各 大 部 委 对 大 数据 的 支持 政策 
部 “ 门 具体 措施 





印发 (国家 新 型 城镇 化 规划 (2014 一 2020 年 )): 统筹 城市 发 展 的 物质 资源 ,信息 
资源 和 智力 资源 利用 ,推动 物 联网 、 云 计算 、 大 数据 等 新 一 代 信息 技术 创新 应 用 
发 布 (国务 院 关 于 促进 云 计算 创新 发 展 培育 信息 产业 新 业态 的 意见 》: 加 强大 数 
据 开发 与 利用 ,实现 数据 资源 的 融合 共享 ,推动 大 数据 挖掘 \ 分 析 、 应 用 和 服务 





国务 院 





利用 项 目 资金 等 手段 进行 前 沿 部 署 ,支持 大 数据 关键 技术 产品 的 研发 和 产业 化 
工业 和 信息 化 部 推动 全 国信 息 技 术 标 准 化 技术 委员 会 开展 大 数据 标准 化 的 需求 分 析 、 标 准 体系 
框架 研究 及 相关 标准 研制 工作 ,并 向 相关 国际 标准 化 组 织 提交 大 数据 研究 提案 











发 展 改革 委 员 会 “信息 化 (大 数据 ) 提 升 政府 治理 能 力 ” 课 题 研究 ; 大 数据 国家 战略 及 发 展 纲要 
国家 统计 局 与 浪潮 、 腾 讯 等 6 家 企业 合作 ,共同 研究 探讨 建立 大 数据 应 用 技术 标 
统计 局 准 和 统计 标准 ,研究 利用 大 数据 完善 补充 政府 统计 数据 ,并 共同 开发 大 数据 采 


集 、 处 理 、 分 析 、 挖 掘 、 发 布 技术 





全 国信 息 技 术 标准 


化 技术 委员 会 成 立 全 国信 息 技术 标准 化 技术 委员 会 大 数据 标准 工作 组 





未 来 ,国家 还 需 从 法 规制 度 和 人 手 , 加 强行 业 管理 和 安全 保障 。 研 究 制定 网 络 数据 采集 、 
传输 ,存储 、 使 用 管理 的 标准 规范 。 加 大 对 隐私 信息 保护 ` 网 络 安全 保障 . 跨 境 数据 流动 的 管 
理 , 组 织 开展 相关 的 专项 检查 和 治理 。 推 动 和 配合 相关 部 门 组 织 开展 数据 共享 开放、 交易 、 
安全 等 方面 的 立法 研究 工作 。 解 决 制约 大 数据 产业 发 展 体制 机 制 因 素 和 不 确定 性 的 市 场 因 
素 , 为 产业 和 应 用 发 展 营造 良好 法 规 和 市 场 环境 。 


2.2 大 数据 商业 模式 和 商业 机 会 


著名 管理 学 大 师 彼得 ， 德 鲁 克 曾 说 过 ,当今 企业 间 的 竞争 ,不 是 产品 的 竞争 ,而 是 商业 
模式 的 竞争 。Rappa(2004) 认 为 ,商业 模式 规定 了 公司 在 价值 链 中 的 位 置 ,指导 着 公司 如 何 
赚 取 剩余 价值 ; 并 指出 商业 模式 明确 了 一 个 公司 开展 什么 活动 来 创造 价值 ,在 价值 链 中 如 
何 选取 上 下 游 合作 伙伴 以 及 怎样 与 客户 达成 交易 ,为 客户 提供 价值 。 商 业 模式 即 为 企业 通 
过 产品 或 服务 与 价值 链 上 下 游 主体 之 间 建 立 的 一 种 商务 关系 ,包括 公司 所 能 为 客户 提供 的 
价值 .公司 的 内 部 组 织 结构 ,合作 伙伴 关系 网 络 等 用 以 实现 这 一 价值 并 产生 可 持续 鳃 利 收入 
的 要 素 。 而 大 数据 业务 的 商业 模式 就 是 围绕 大 数据 资产 和 技术 衍生 出 来 的 商业 模式 。 大 数 
据 作 为 继 云 计 算 、 物 联网 之 后 IT 产业 又 一 次 颠覆 性 的 技术 变革 。 如 何 利用 大 数据 的 信息 
处 理 方式 ,通过 收集 ,处 理 庞 大 而 复杂 的 数据 信息 ,探索 并 发 现 新 的 商机 、 对 客户 和 市 场 进行 
新 的 洞察 ,实现 业务 创新 和 流程 创新 。 大 数据 的 价值 必 将 对 现代 企业 的 管理 运作 理念 市 场 
营销 决策 以 及 消费 者 行为 模式 等 产生 巨大 影响 ,使 得 企业 商务 管理 决策 越 来 越 依赖 于 数据 
分 析 而 非 经 验 甚 至 直觉 。 因 而 ,大 数据 也 必 将 对 这 种 传统 的 商业 模式 进行 近乎 彻底 的 颠覆 
与 模式 的 重 构 。 


2.2.1 基于 大 数据 的 商业 模式 创新 


基于 “大 数据 ”资源 工具 化 运用 的 商业 模式 基本 构成 要 素 的 创新 ,基本 上 属于 熊 彼 特 创 
新 的 范畴 , 它 是 以 新 资源 和 新 技术 供应 为 基础 的 产品 ,生产 方法 、 市 场 及 行业 的 转变 ; 这 种 





生生 生生 
创新 是 建立 在 新 的 数据 资源 观 基础 之 上 的 . 它 包括 对 “大 数据 ”资源 本 身价 值 . 利 用 方式 、 获 

得 方式 的 再 思考 ,也 包括 对 受 “ 大 数据 ”影响 的 企业 其 他 资源 、 能 力 延 伸 和 利用 方式 的 再 思 

考 。 基 于 “大 数据 ”的 企业 特征 层面 的 商业 模式 创新 主要 表现 为 : 价值 主张 创新 、 价 值 创造 

和 传递 模式 创新 (关键 业务 和 流程 创新 )、 收 益 模式 创新 ,以 及 外 部 关系 网 络 和 价值 网 络 
重 构 。 

1. 基于 “大 数据 "的 价值 主张 创新 

“大 数据 ”由 于 具有 无 限 接近 消费 者 的 潜能 可 以 为 企业 提供 精准 的 价值 主张 。 

(1) 洞悉 消费 者 的 真实 需求 。 面 向 顾客 的 公司 很 长 时 间 以 来 都 在 利用 数据 细 分 和 定位 
它们 的 顾客 ,然而 消费 者 的 真实 需求 具有 隐蔽 性 、 复 杂 性 、 易 变性 和 情景 依赖 性 ,利用 历史 
的 .静态 的 ,结构 化 的 数据 ,企业 很 难 获 得 用 户 的 真实 需求 。 而 “大 数据 ”使 企业 获得 消费 者 
的 真实 需求 成 为 可 能 : 人 类 的 细微 行为 ,会 直接 暴露 内 心 的 真实 想法 ,例如 网 友 在 网 络 中 的 
足迹 ,点击 ,浏览 ,留言 等 能 直接 反映 他 的 性 格 、 偏 好 、 意 愿 ; 在 物 联 网 世界 ,企业 可 以 运用 来 
自 内 置 于 产品 中 的 传感器 数据 ,了 解 商品 在 真实 世界 里 的 真实 使 用 情况 。 

(2) 对 消费 者 进行 准确 细 分 。 传 统 的 ,企业 可 操作 的 消费 者 细 分 一 般 以 地 理 位 置 、 人 口 
统计 特征 为 依据 ,而 “大 数据 ?可 以 实现 越 来 越 接 近 消 费 者 真实 需求 的 细 分 方式 : 一 是 细 分 
标准 抽象 化 , 当 人 们 的 兴趣 、 爱 好 、 价 值 观 . 生 活 方式 ,沟通 方式 等 都 可 以 数据 化 以 后 ,以 这 些 
特征 细 分 消费 者 就 具有 了 现实 可 行 性 ; 二 是 细 分 市 场 微 小 化 ,从 本 质 上 讲 , 世 界 上 有 多 少 人 
就 有 多 少 种 兴趣 、 偏 好 和 需求 ,每 个 人 都 是 一 个 细 分 市 场 ,“ 大 数据 ”正在 使 企业 向 “ 微 市 场 ” 
(Micro-Segments) (Goyaletal,2012) 化 迈进 。 例 如 在 医疗 行业 ,基于 包括 个 人 遗传 基因 及 分 
子 组 成 的 大 数据 的 个 性 化 医疗 已 经 成 为 这 一 行业 商业 模式 变革 的 大 趋势 。 

(3) 产品 的 即时 、 精 准 、 动 态 定位 。 

大 数据 的 实时 个 性 化 (Real-time Personalization) 以 及 多 来 源 、 多 格式 数据 的 快速 综合 
对 比分 析 能 力 使 数据 的 收集 整理. 分析、 反馈、 响应 可 以 在 瞬间 完成 ,使 企业 随时 随地 精准 
圈定 用 户 群 并 满足 他 们 的 真实 需求 和 潜在 需求 成 为 可 能 。 和 零售 业 就 是 一 个 典型 的 数据 驱动 
定制 化 的 行业 ,目前 在 线 零 售 商 利用 实时 数据 提供 精准 的 商品 推介 已 经 十 分 普遍 ; 新 一 代 
的 零售 商 已 经 可 以 通过 互联 网 点 击 流 跟踪 消费 者 的 个 人 行为 ,更 新 他 们 的 偏好 、 实 时 模型 化 
他 们 的 行为 模式 ,快速 识别 出 消费 者 在 什么 时 候 接近 购买 决策 ,然后 打包 首选 商品 促进 交易 
的 完成 。 以 Sears Holdings( 希 尔 斯 控股 ) 为 例 , 几 年 前 这 一 公司 就 决定 利用 它 的 三 大 品牌 
收集 关于 顾客 产品 ,促销 的 巨大 数据 创造 价值 一 一 用 以 量 身 定做 针对 顾客 的 个 性 化 促销 手 
段 和 产品 。 但 是 ,这 一 大 规模 分 析 所 需要 的 数据 是 海量 的 而 且 是 碎片 化 的 ,存储 在 不 同 品牌 
所 持 有 的 多 个 数据 库 和 数据 仓库 中 ,运用 企业 原 有 的 IT 架构 完成 一 轮 分 析 需 要 8 个 星期 的 
时 间 , 这 使 其 没有 商业 价值 。 后 来 .公司 转向 了 大 数据 技术 和 实践 ,与 Cloudera 公司 合作 搭 
建 了 Hadoop Cluster( 分 布 式 计 算 集群 ) ,运用 集群 可 以 直接 进行 数据 分 析 ,避免 了 耗费 大 量 
时 间 从 不 同 来 源 抽取 数据 加 以 合并 才能 用 于 分 析 的 复杂 过 程 ,产生 一 套 有 效 的 促销 设计 的 
时 间 从 8 个 星期 缩减 为 一 个 星期 ,而且 Hadoop Cluster 的 存储 和 运行 成 本 仅仅 是 传统 标准 
数据 库 成 本 的 一 个 零头 (McAfee,Brynjolfsson,.2012) ,大 数据 技术 的 运用 使 其 “ 量 身 定做 ” 
的 价值 主张 得 以 实现 。 

2. 基于 “大 数据 ”的 关键 业务 和 流程 创新 

作为 基础 技术 条 件 和 工具 ,“ 大 数据 "资源 具有 释放 和 放大 其 他 资源 价值 的 能 量 。 基 于 
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大 次 本 要 所 党 再 汪 玫 后 荆 入 0 
“大 数据 ”的 关键 业务 和 关键 流程 创新 就 是 企业 业务 活动 的 “大 数据 ”化 ,依据 其 改造 和 影响 
的 范围 可 以 分 成 以 下 几 种 情况 。 

(1) 以 “大 数据 ”设施 和 技术 作为 基础 ,以 数据 信息 流 为 线索 对 整个 业务 流程 进行 再 造 ， 
例如 ,大 规模 定制 "生产 方式 的 实现 就 是 基于 强大 的 IT 基础 设施 对 企业 进行 流程 再 造 的 
结果 。 

(2) 以 “大 数据 ?活动 取代 传统 的 业务 流程 ,使 企业 的 业务 经 营 模式 发 生变 化 。 例 如 , 电 
子 商 务 的 发 展 就 是 传统 商业 流通 主要 交易 流程 被 数据 交换 取代 的 结果 。 

(3) 把 “大 数据 ?活动 纳入 价值 创造 流程 ,寻找 新 的 价值 创造 方向 和 路 径 。 例 如 在 汽车 
行业 ,利用 大 数据 分 析 , 充 分 挖掘 数据 信息 背后 所 隐 含 的 行业 技术 关联 ,寻找 有 效 途径 延长 
燃气 涡轮 .喷气 式 发 动机 和 其 他 重型 设备 的 运行 时 间 ,这 为 传统 制造 业 寻 找 新 的 价值 增长 点 
提供 了 思路 。 

(4) 基于 “大 数据 ”的 流程 再 设计 ,以 “大 数据 "作为 解决 问题 的 新 方法 ,提高 某 一 业务 流 
程 的 效率 或 效果 。 以 机 场 为 例 , 预 计 航班 到 达 时 间 是 机 场 的 一 个 重要 流程 ,以 往 这 一 估计 由 
飞行 员 到 达 最 后 一 个 导航 点 至 机 场 期 间 提供 ,高 误差 率 和 大 的 误差 范围 引发 了 相当 可 观 的 
成 本 ,利用 PASSUR Aero space 公司 提供 的 名 为 Right ETA 的 航班 到 达 时 间 估 计 服 务 彻 
底 改 变 了 这 种 状况 : Right ETA 服务 是 基于 天 气 .航行 时 间 表 等 公共 数据 以 及 PASSUR 收 
集 的 多 维 历史 数 据 进 行 的 精细 分 析 和 模式 匹配 分 析 , 转 向 使 用 Right ETA 服务 以 后 ,机 场 
从 根本 上 消除 了 预测 误差 ,每 年 可 为 机 场 创造 几 百 万 美元 的 价值 。 

3. 基于 “大 数据 "的 盈利 模式 创新 

许多 商业 模式 创新 都 是 建立 在 这 样 一 种 认 知 基础 之 上 的 : 消费 者 对 商品 需求 的 本 质 是 
使 用 商品 而 非 拥 有 商品 本 身 。 例 如 ,出 售 模式 改 为 出 租 模式 ,与 此 相对 应 的 收益 模式 从 一 次 
性 支付 向 “ 微 支付 "转变 : 著名 的 建筑 设备 制造 销售 商 喜 利得 (Hilti) 变 身 成 为 设备 出 租 服 务 
合同 管理 商 (Johnsonetal,2008) ,国内 的 * 北 森 测评 ”公司 通过 在 线 销 售 创 新 软件 收费 方 
案 一 一 由 原来 以 企业 为 单位 的 固定 收费 转变 为 按照 使 用 次 数 收费 等 ,这 些 创新 都 取得 了 巨 
大 的 成 功 。 但 是 ,使 用 这 一 收费 模式 的 前 提 是 使 用 过 程 可 被 记录 和 量化 ,而 “大 数据 "可 以 实 
现 使 用 过 程 、 频 率 .强度 的 实时 监控 和 记录 。 这 一 收益 模式 变革 在 软件 行业 和 媒体 广告 行业 
最 为 典型 。 在 软件 行业 ,应 用 软件 泛 互 联网 化 改变 了 消费 者 获得 和 使 用 软件 的 方式 ,软件 价 
值 的 载体 虚拟 化 ,使 软件 的 价值 传递 方式 和 收益 模式 必须 发 生 改变 。 例 如 开源 软件 模式 、 
AppStore 模式 等 ,企业 利用 "门户 化 ?建立 排他 性 ,提高 客户 黏 性 ; 利用 “碎片 化 ”, 把 原来 大 
型 腑 肿 的 软件 , 拆 分 成 多 个 独立 的 功能 组 件 , 用 户 可 以 按 需 下 载 ,从 而 降低 了 客户 的 总 体 拥 
有 成 本 ,企业 的 关键 流程 也 由 开发 .复制 .销售 软件 向 开发 .服务 .提供 问题 解决 方案 转变 。 
在 媒体 广告 行业 ,传统 的 以 呈现 时 间或 者 频次 为 计 费 标准 的 收费 模式 很 难 在 广告 费用 和 广 
告 效果 之 间 建 立 起 直接 的 联系 ,对 于 广告 主 来 说 ,如何 确定 广告 的 有 效 性 是 最 大 的 困扰 , 正 
如 百货 行业 巨子 约翰 。 沃 纳 梅 克 (John Wanamaker) 所 说 : 他 花 在 广告 上 的 钱 有 一 半 是 浪 
费 的 ,但 却 不 知道 是 哪 一 半 。 利 用 “大 数据 ”, 互 联网 广告 正在 逐步 实现 广告 成 本 与 广告 价值 
的 对 等 。 例 如 ,CPC(Cost per Click) 模 式 , 即 广告 主 为 每 次 点 击 付 费 ; CPM (Cost per 
Thousand Impressions) 模 式 , 即 广告 主 以 广告 显示 每 1000 次 为 单位 付费 ; CPA (Cost per 
Action) 模 式 , 即 广告 主 为 广告 所 带 来 的 用 户 的 每 次 特定 行为 付费 ,包括 形成 一 次 交易 、 获 得 
一 个 注册 用 户 、 产 生 一 次 下 载 行为 等 ; CPS(Cost per Sale) 模 式 , 即 基于 广告 引入 用 户 所 产 








类 括 届 哈 考 de 
生 的 成 功 销售 而 收取 一 定 比 例 的 佣金 ,典型 的 如 Google 地 图 的 “点 击 呼叫 ”(Click-to-Call) 
功能 ,以 及 Facebook 刚刚 宣布 推出 的 “转化 追踪 ”服务 ,这 些 创新 与 应 用 正在 引发 广告 媒体 
行业 收益 模式 的 大 变革 。 

4. 基于 “大 数据 ”的 关系 网 络 和 价值 网 络 重 构 

从 RBV 资源 分 析 视 角 看 ,数据 资源 虽然 具有 很 高 的 价值 ,但 是 其 流动 性 强 、 可 获得 性 
强 、 价 值 流逝 速度 快 而 且 对 它 的 利用 方式 也 易于 模仿 ,而 且 它 还 具有 无 形 性 、 知 识 性 特征 。 
大 数据 技术 具有 高 度 专业 性 和 复杂 性 ,大 数据 基础 设施 的 运行 具有 高 固定 成 本 、 低 边际 成 本 
的 特征 ,而 且 对 其 访问 (利用 ) 呈 现 高 度 并 发 性 和 波动 性 ,企业 以 传统 方式 获取 和 控制 大 数据 
资源 和 技术 成 本 高 昂 , 而 且 风 险 很 大 ; 而 另 一 方面 大 数据 技术 却 使 外 部 资源 利用 的 交易 成 
本 和 风险 大 大 降低 ,这 就 使 得 企业 在 “大 数据 ?资源 获得 和 利用 方面 倾向 于 选择 介 于 市 场 交 
易 与 内 部 生产 之 间 的 方式 ,分 享 与 合作 成 为 企业 构建 外 部 关系 网 络 和 价值 网 络 的 主题 ; 例 
如 数据 共享 .IT 外 包 等 ,IT 外 包 是 目前 一 般 企业 解决 “大 数据 "问题 的 基本 思路 ,也 是 “大 数 
据 ? 产 业 链 形成 的 根本 推动 力 ,这 一 方式 可 以 实现 “大 数据 ?资源 的 柔性 配置 和 规模 效率 。 

除了 获取 大 数据 资源 和 技术 本 身 为 目的 的 外 部 合作 以 外 ,大 数据 技术 使 企业 获取 和 利 
用 其 他 外 部 资源 的 成 本 和 风险 也 大 大 降低 ,为 新 的 价值 创造 模式 和 价值 传递 模式 提供 了 技 
术 路 径 。 

(1) 众 包 (Crowdsourcing) 。 众 包 是 指 把 传统 上 由 指定 代理 人 (通常 是 雇员 ) 完 成 的 任 
务 以 公开 选拔 的 形式 外 包 给 大 量 不 特定 的 个 人 去 做 的 行为 (Howe,2006)。 众 包 模 式 的 实 
质 是 对 离散 社会 资源 的 有 效 利用 。 在 IT 业 , 开 源 社区 (Open Source Community) 就 是 众 包 
的 典型 模式 ,目前 各 大 IT 巨头 都 争 相 采取 这 种 模式 构筑 自己 的 创新 “生态 圈 ”, 其 他 行业 的 
许多 世界 性 大 公司 也 都 建立 了 自己 的 网 络 平台 或 者 借助 众 包 中 介 (Crowd sourcing 
Intermediates) 以 众 包 方式 解决 技术 .创意 .设计 等 原来 完全 由 内 部 流程 和 资源 完成 的 活动 ， 
如 宝洁 杜邦、 波音 等 。 

(2) 用 户 自生 成 内 容 (User-generated Content)。 用 户 自生 成 内 容 是 在 “去 中 心 化 ”、 用 
户 参 与 .用 户 体验 .协同 创作 等 互联 网 文化 推动 下 产生 的 一 种 新 兴 的 网 络 信息 资源 创作 与 组 
织 模式 ( 赵 宇 翔 等 ,2011) ,消费 者 以 上 传 文字 、 图 片 . 音 频 、 视 频 或 者 共享 文件 等 形式 参与 内 
容 和 价值 创造 ,这 一 模式 的 典型 代表 如 维基 百科 、Google、Facebook 等 。 

(3) 共同 创造 (Co-creation)。 从 比较 深层 的 意义 上 看 ,共同 创造 是 把 消费 者 、 供 应 链 成 
员 力 至 其 他 相关 产品 提供 者 纳入 产品 价值 网 络 的 思维 方式 。 从 简单 意义 上 看 ,是 指 企业 整 
合 来 自 于 多 元 系统 的 数据 、 邀 请 跨 职 能 部 门 的 合作 其 至 从 外 部 供应 商 和 消费 者 那里 获取 信 
息 以 共 创 产品 (Leeetal,2012) 。 例 如 ,汽车 行业 基于 集成 化 数据 平台 的 全 供应 链 设计 合作 ， 
玩具 行业 巨头 乐高 基于 在 线 订 购 的 允许 客户 组 装 他 们 自己 乐高 套件 的 乐高 工厂 等 。 这 些 新 
模式 所 依赖 的 核心 工具 都 是 基于 Web 3.0 技术 的 网 络 平台 。 

这 些 创 新 改变 了 企业 对 外 部 资源 需求 的 内 容 及 方式 ,改变 了 企业 创造 价值 ,传递 价值 的 
方式 及 路 径 ,改变 了 企业 的 商业 生态 ,使 企业 的 资源 边界 、 市 场 边界 和 契约 边界 都 呈现 模糊 
化 趋势 。 可 见 , 企 业 对 “大 数据 ”资源 的 获得 和 利用 过 程 也 是 企业 重 构 外 部 关系 网 络 和 价值 
网 络 的 过 程 ,价值 网 络 重 构 已 经 成 为 企业 商业 模式 创新 的 重要 方式 之 一 ( 王 琴 ,2011)。 

信息 资源 产品 化 的 基本 前 提 是 信息 的 可 分 离 性 (Information Separability) , 即 各 种 无 形 
的 信息 能 在 多 大 程度 上 以 数字 的 形式 被 捕捉 从 而 与 产生 它 的 活动 相 分 离 ,使 其 可 以 用 来 指 
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导 下 一 次 活动 (Sampler,1998)。“ 大 数据 ”的 发 展 为 信息 的 分 离 提 供 了 载体 和 工具 : 用 户 在 
各 类 信息 平台 上 留 下 了 海量 数据 ,在 大 数据 处 理 技术 之 下 可 以 对 其 进行 分 类 整理 和 重新 聚 
合 , 这 些 聚 合 性 的 数据 信息 包含 着 极 高 的 商业 价值 ,并 且 具 备 了 销售 的 可 能 ,至 此 数据 信息 
得 以 向 数据 产品 过 渡 ( 黄 升 民 , 刘 珊 .2012) ,以 “大 数据 ”产品 为 核心 的 产业 链 正在 形成 。“ 大 
数据 ?产业 链 可 以 从 两 个 方向 进行 描述 : 以 大 数据 产品 价值 链 为 线索 沿 横向 从 数据 采集 、 整 
理 、 分 析 到 决策 逐 级 递 进 ,以 大 数据 技术 为 中 心 沿 纵向 从 底层 的 基础 设施 供应 ,大 数据 技术 
提供 到 完整 IT 解决 方案 服务 。 从 产业 价值 链 的 层面 看 ,不 同 的 商业 模式 主要 是 指 企 业 在 
产业 链 上 的 不 同 角色 和 地 位 ,商业 模式 创新 则 来 自 于 企业 在 价值 链 上 的 重新 定位 、 价 值 链 的 
延展 分 拆 、 创 新 与 混合 (高 闻 , 关 筠 ,2006) ,这 一 层面 商业 模式 创新 的 基本 趋势 是 以 产品 为 
中 心 的 价值 链 定位 与 选择 正在 向 满足 客户 完整 解决 方案 需求 的 业务 活动 选择 的 转变 ,从 而 
使 * 大 数据 ”产业 呈现 与 其 他 产业 交叉 重 倒 的 趋势 。 

(1) 企业 价值 链 水 平 延伸 商业 模式 。 

在 “大 数据 ”行业 ,按照 加 工 深度 的 不 同 ,数据 产品 基本 上 可 以 分 为 数据 (原始 数据 )、 信 
息 和 知识 。 数 据 (Data) 是 载荷 或 记录 信息 的 按 一 定 规则 排列 组 合 的 物理 符号 ,可 以 是 数字 、 
文字 、 图 像 ,也 可 以 是 计算 机 代码 。 拥 有 数据 是 获取 信息 的 第 一 步 ,信息 的 获取 还 需要 对 数 
据 背景 进行 解读 , 即 当 接收 者 了 解 了 物理 符号 序列 的 规律 ,并 知道 每 个 符号 和 符号 组 合 的 指 
向 性 目标 或 含义 时 , 才 可 以 获得 一 组 数据 所 载荷 的 信息 (可 以 用 公式 “数据 十 背景 = 信息 ” 表 
示 ), 也 可 以 说 ,信息 是 指 把 数据 放置 在 一 定 的 背景 下 ,对 数字 进行 解释 并 赋予 意义 。 在 此 基 
础 上 ,使 用 者 通过 对 这 些 数据 的 转换 、 整 合 计算、 分析 来 解释 各 种 现象 背后 的 原因 ,预测 事 
物 的 发 展 趋势 ,并 应 用 于 具体 的 专业 实践 活动 ,数据 就 成 了 “知识 ”( 黄 升 民 , 刘 珊 ,2012)。 大 
数据 产品 的 价值 取决 于 数据 资源 的 专 有 性 (Data Specificity) 程 度 , 即 数据 资源 的 使 用 或 获 
得 在 多 大 程度 上 限定 于 特定 的 个 人 或 者 特定 的 时 间 期 限 , 其 中 ,个 人 专 有 性 也 称 为 知识 专 有 
性 ,是 指 只 有 拥有 特定 知识 的 人 才能 获得 或 使 用 ,也 就 是 其 获得 和 利用 对 某 种 特定 知识 的 要 
求 ; 时 间 专 有 性 是 指数 据 资源 必须 在 其 产生 后 的 很 短 时 间 立 即 被 捕 提 ,必须 在 其 产生 后 的 
特定 时 间 段 内 被 使 用 。 数 据 、 信 息 、 知 识 的 获得 时 间 专 有 性 和 获得 知识 专 有 性 程度 不 同 , 也 
就 决定 了 其 价值 创造 所 依赖 的 关键 资源 不 同 ,从 而 也 就 决定 了 拥有 不 同 核心 资源 和 能 力 的 
企业 在 价值 链 上 的 不 同 定位 。 

基于 此 ,以 数据 产品 为 基本 提供 物 的 数据 公司 ,按照 其 在 大 数据 产品 价值 链 上 的 不 同 定 
位 ,可 以 分 为 三 种 基本 商业 模式 : 

Q@ 数据 租 售 模式 。 这 一 模式 的 价值 主张 是 向 客户 提供 原始 数据 的 租 售 ,其 关键 流程 是 
数据 的 采集 、 传 输 和 整理 。 原 始 数据 的 获得 时 间 专 有 性 很 强 ,也 就 是 必须 要 有 实时 接触 和 采 
集 数据 的 条 件 , 但 其 获得 知识 专 有 性 相对 较 弱 ,所 以 ,这 一 商业 模式 所 依赖 的 核心 资源 是 有 
利 的 采集 数据 的 技术 基础 和 条 件 。 这 一 商业 模式 处 于 价值 链 第 一 阶段 。 例 如 ,2010 年 在 深 
圳 中 小 板 上 市 的 四 维 图 新 公司 ,其 价值 主张 是 以 覆盖 全 国 的 高 质量 导航 电子 地 图 数据 库 及 
其 更 新 体系 满足 汽车 工业 、 消 费 类 电子 行业 、 互 联网 和 移动 位 置 服务 等 各 行 所 需 。 它 处 于 产 
业 链 最 上 游 ,精准 的 导航 数据 是 公司 的 核心 产品 ,也 是 地 理 信息 数据 及 应 用 产业 最 稀缺 的 资 
源 , 这 家 公司 因此 成 为 国内 第 一 家 上 市 的 导航 电子 地 图 生产 企业 。 

@ 信息 租 售 模式 。 这 一 模式 的 价值 主张 是 向 客户 提供 代表 某 种 主题 的 相关 数据 集 , 诸 
如 数据 包租 售 等 ,其 关键 流程 是 把 原始 数据 与 其 背景 意义 相 结合 ,整合 .提炼 .萃取 ,使 数据 
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形成 价值 密度 更 高 的 信息 。 信 息 的 获得 时 间 专 有 性 相对 不 强 , 但 其 获得 知识 专 有 性 较 强 ( 主 
要 是 数据 处 理 领 域 的 知识 ), 所 以 ,这 种 商业 模式 所 依赖 的 核心 资源 是 数据 处 理 技术 及 能 力 ， 
这 种 商业 模式 处 于 价值 链 的 中 间 阶 段 。 例 如 彭 博 (Bloomberg) 公司, 其 价值 主张 是 为 专业 
人 士 提供 及 时 、 准 确 、 丰 富 的 金融 交易 信息 和 财经 资讯 ,公司 的 核心 竞争 力 在 于 积累 了 丰富 、 
大 量 的 金融 行业 数据 和 交易 数据 ,拥有 强大 的 专家 和 咨询 网 络 ,构建 了 整合 专业 服务 与 媒体 
服务 的 全 球 性 服务 平台 , 彭 博 也 因此 成 为 全 球 商业 金融 信息 和 财经 资讯 的 领先 提供 商 。 

@ 知识 租 售 模式 。 这 一 模式 的 价值 主张 是 为 客户 提供 一 体 化 的 业务 问题 解决 方案 ,其 
关键 流程 是 将 "大 数据 ”与 行业 知识 利用 相 结 合 ,通过 行业 专家 ,深度 介入 客户 的 业务 流程 ， 
提供 业务 问题 解决 方案 。 相 对 而 言 ,知识 的 获得 时 间 专 有 性 较 弱 ,但 其 获得 知识 专 有 性 很 强 
(包括 数据 处 理 知识 和 特定 行业 知识 ), 所 以 ,这 一 商业 模式 所 依赖 的 核心 资源 是 拥有 大 数据 
挖掘 技术 的 行业 专家 ,这 种 模式 实际 上 已 经 超越 了 数据 公司 的 范畴 。 例 如 Opera 公司 , 它 
致力 于 提供 大 数据 的 挖掘 ,在 高 度 专业 化 的 领域 提供 高 端的 服务 ,其 业务 诸如 : 为 银行 信用 
卡 部 门 设计 新 的 产品 和 营销 方案 ,帮助 保险 部 门 确定 寿险 .车险 等 的 赔 率 , 帮 助 投行 确定 应 
该 对 哪些 用 户 推出 新 的 产品 ,等 等 。 可 以 看 出 ,这 种 模式 已 经 具有 了 跨行 业 的 特征 。 

(2) 大 数据 为 中 心 垂 直 衍 生 商业 模式 。 

广义 的 大 数据 技术 可 分 成 4 个 层面 : 平台 层 (并 行 构架 和 资源 平台 , 即 硬件 层面 )、 系统 
层面 (大 数据 存储 管理 和 并 行 编程 模型 与 计算 框架 )、 算 法 层 (基础 算法 和 应 用 算法 ) 和 应 用 
层 ( 应 用 开发 和 行业 应 用 )( 黄 宜 华 ,2012) 。 狭 义 的 大 数据 技术 则 仅 包括 后 三 个 层面 ( 即 软件 
层面 )。 在 “大 数据 ”行业 ,以 大 数据 技术 为 基本 提供 物 的 大 数据 技术 公司 ,它们 为 其 他 行业 
企业 以 及 数据 公司 提供 IT 基础 及 服务 ,按照 其 在 大 数据 技术 纵向 架构 中 的 不 同 定位 ,可 以 
分 为 三 种 基本 商业 模式 , 即 硬件 租 售 模式 、 软 件 租 售 模式 和 服务 模式 ,服务 模式 已 经 成 为 这 
一 领域 商业 模式 创新 的 大 趋势 。 

@ 硬件 租 售 模式 。 采 用 这 一 模式 的 企业 主要 包括 大 数据 存储 设施 、 计 算 设施 、 网 络 设 
施 的 销售 商 ,也 包括 新 兴 的 提供 云 存储 、 云 计算 业务 的 服务 提供 商 (相当 于 硬件 设施 的 出 租 ) 
等 ,Dropbox、 国 内 的 微 盘 、 华 为 联想 都 是 此 类 公司 的 代表 。 例 如 ,Drop Box 就 是 Dropbox 
公司 运行 的 在 线 存储 服务 ,通过 云 计算 实现 因特网 上 的 文件 同步 ,用 户 可 以 存储 并 共享 文件 
和 文件 夹 ,采取 免费 十 收费 的 商业 模式 , 它 为 初始 用 户 提供 2GB 的 免费 文件 空间 ,用 户 可 以 
通过 邀请 其 他 人 参与 、 使 用 以 及 付费 等 方式 获得 更 多 文件 空间 。 

@ 软件 租 售 模式 。 采 用 这 一 模式 的 企业 主要 是 指 大 数据 技术 (狭义 ) 与 服务 提供 商 ,这 
些 提供 商 围 绕 Hadoop 架构 开展 一 系列 研发 ,提供 大 数据 存储 、 检 索 、 数 据 挖掘 等 技术 和 服 
务 . 它 们 提供 专 为 解决 数据 挑战 而 创建 的 优化 型 技术 ,用 以 捕获 、 处 理 、 分 析 和 显示 非 结构 化 
和 结构 化 数据 ,并 将 其 转换 为 有 意义 的 洞察 性 信息 。 例 如 在 算法 层面 ,目前 国内 提供 非 结构 
化 数据 处 理 技术 的 代表 性 公司 有 : 语音 数据 处 理 领 域 的 科大 讯 飞 ,视频 数据 处 理 领域 的 捷 
成 股份 ,语义 识别 领域 的 拓 尔 思 , 图 像 数 据 处 理 领 域 的 超 图 软件 ,大 数据 存储 领域 的 同 有 科 
技 公 司 ,等 等 。 在 应 用 层面 ,例如 全 球 商 业 智 能 和 分 析 软 件 与 服务 领袖 一 -SAS 公司 , 它 一 
直 致 力 于 数据 统计 软件 的 开发 和 销售 ,SAS 在 综合 的 企业 智能 平台 上 提供 一 流 的 数据 整 
合 、 存 储 、 分 析 和 商业 智能 应 用 ,帮助 企业 更 快 . 更 准确 地 进行 业务 决策 。 

@ 服务 模式 。 这 一 模式 建立 在 “大 数据 ?行业 垂直 整合 的 基础 上 ,需要 企业 与 客户 进行 
深度 合作 ,其 价值 主张 是 为 客户 提供 一 体 化 的 IT 问题 解决 方案 。“ 大 数据 ”时 代 开 源 软 件 
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的 兴起 和 繁荣 使 传统 的 操作 系统 、 中 间 件 ,数据库 等 平台 级 软件 的 同 质 化 趋势 渐 趋 明显 ,使 
最 终 用 户 关 注 的 焦点 转变 为 如 何 解 决 企 业 的 业务 问题 ,而 不 是 购买 谁 的 设备 ,使 用 谁 的 数据 
库 或 者 操作 系统 ,深度 定制 化 成 为 需求 的 基本 特征 。 在 这 一 背景 下 ,各 大 IT 巨头 开始 通过 
收购 、 合 作 、 创 新 .调整 来 布局 自己 的 “大 数据 ?业务 ,逐步 由 硬件 供应 、 软 件 供应 向 服务 模式 
转型 ,其 典型 代表 如 IBM、EMC、Oracle、SAP 等 。IBM 在 1992 年 开始 由 硬件 供应 商 向 服务 
提供 商 转变 的 商业 模式 创新 ,提出 为 用 户 提供 完整 解决 方案 的 价值 主张 。 面 对 “大 数据 ?的 
到 来 ,应 对 “感知 化 、 互 联 化 、 智 能 化 ”的 科技 大 势 , 又 提出 “智慧 地 球 ” 的 愿景 ,部 署 自己 的 “大 
数据 ”战略 (Weed,2012) ,通过 收购 Cognos、ILOG ,SPSS、Netezza、Coremetrics 等 使 公司 的 
业务 涵盖 企业 的 文化 战略 咨询 .组织 流程 梳理 ,IT 治理 、 系 统 建设 、 基 本 应 用 软件 、 中 间 件 、 
数据 库 .操作 系统 .主机 等 ,实现 了 向 服务 模式 的 转型 。EMC 通过 系统 、 软 件 和 服务 的 组 合 ， 
自 上 而 下 设计 ,构建 总 成 解决 方案 ,帮助 IT 部 门 以 更 敏捷 、 更 可 信 、 成 本 更 低 、 效 率 更 高 的 
方式 存储 、 管 理 \ 保 护 、 分 析 他 们 最 重要 的 资产 一 一 信息 ; 通过 并 购 VMware、RSA、 
DataDomain、Greenplum、Isilon 等 多 家 在 “ 云 和 大 数据 "方面 具有 高 度 战略 价值 的 公司 使 公 
司 的 业务 涵盖 : 云 基 础 架构 转型 服务 ,关键 应 用 程序 转型 服务 ,利用 云 计算 实现 业务 转型 服 
务 等 。Oracle 公司 在 数据 库 产品 取得 行业 领袖 位 置 以 后 ,首先 向 产业 链 下 游 扩 张 , 加 强 对 
终端 客户 的 掌控 ; 然后 向 产业 链 上 游 扩 张 ,涉足 中 间 件 供应 和 服务 器 制造 ,从 而 实现 了 产业 
链 上 下 游 的 全 覆盖 : 打包 主机 、 操 作 系统 .数据 库 . 中 间 件 .应 用 软件 ,形成 战略 性 的 新 产品 
ExaData(“ 新 一 代 海 量 关系 数据 管理 平台 ”) (Billings,2012)。SAP 在 2012 SAP 全 球技 术 
研发 者 大 会 上 正式 宣布 推出 基于 HANA( 高 性 能 分 析 应 用 软件 ) 平 台 的 Business One 解决 
方案 ,至 此 ,通过 与 芯片 ,系统 厂商 的 深度 定制 与 紧密 拥 绑 实现 了 SAP 的 软 硬 一 体 化 战略 。 

这 些 创 新 源 于 不 同 的 起 点 .沿用 了 不 同 的 路 径 、 依 托 不 同 的 资源 和 优势 ,但 是 ,它们 创新 
的 逻辑 起 点 却 是 相同 的 : 提供 最 佳 客户 体验 ,并 在 这 一 思想 指导 下 实现 了 突破 产品 边界 、 业 
务 边界 甚至 产业 边界 的 创新 。 


2.2.2 大 数据 对 企业 管理 决策 的 影响 


管理 的 重要 职能 就 是 决策 ,通过 决策 实现 管理 目标 ,优化 资源 配置 。 管 理 是 由 一 系列 的 
决策 组 成 的 ,决策 需要 依靠 准确 完整. 及 时 的 信息 和 数据 ,在 此 基础 上 寻找 优化 方案 ,或 者 
满意 的 解决 方案 (参考 时 间 、 机 会 成 本 等 )。 大 数据 从 支持 决策 ,再 进一步 到 在 某 些 领域 产生 
决策 ; 因为 大 数据 的 5V 特征 ,使 得 数据 来 源 维 度 拓展 ,包括 领域 决策 的 模型 和 数据 ,也 包括 
决策 主体 的 行为 模型 和 数据 ,以 及 决策 环境 的 模型 和 数据 。 大 数据 使 得 决策 过 程 得 以 在 更 
多 维度 空间 下 优化 ,不 仅 包括 领域 的 ,微观 和 技术 的 过 程 .也 包括 主体 的 行为 的 和 偏好 的 特 
征 , 还 考虑 了 环境 的 、 宏 观 的 和 系统 的 因素 。 大 数据 相关 技术 对 于 数据 维度 的 扩张 ,数据 处 
理 能 力 的 提升 ,数据 层次 的 提升 的 同时 ,也 扩大 了 数据 的 收益 。 

企业 绩效 分 析 和 预测 是 企业 大 数据 的 重要 应 用 之 一 。 企 业 数 据 从 内 部 ERP 系统 、 业 务 
系统 、 办 公 自 动 化 系统 、 客 户 服务 系统 的 客户 反馈 、 员 工 日 志 、 生 产 制造 系统 中 获取 。 财 务 价 
值 数据 主要 来 自 ERP、 财 务 系统 、 预 算 系 统 等 ,也 能 从 上 市 公司 年 报 、 政 府 统计 数据 、 行 业 年 
鉴 等 中 获取 有 用 信息 。 客 户 数据 主要 来 自 内 部 CRM 系统 、 呼 叫 中 心 、 门 户 网 站 、 社 交 媒 体 
等 。 通 过 这 些 数据 分 析 能 够 分 析 和 预测 企业 业务 和 管理 绩效 ,为 企业 运行 提供 全 面 的 洞察 
力 。 按 照 企 业 平衡 记分 卡 的 模型 ,企业 绩效 的 数据 主要 包括 4 个 方面 ,分 别 是 企业 业务 运营 
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数据 .财务 价值 数据 .客户 数据 和 面向 企业 未 来 发 展 的 数据 。 

大 数据 也 可 以 帮助 企业 提升 资产 管理 和 优化 业务 流程 ,提升 企业 管理 绩效 。 企 业 利 用 
实时 数据 能 够 实现 预测 性 的 维护 并 减少 故障 ,推动 产品 和 服务 开发 。 大 数据 的 精髓 就 是 它 
力图 追求 全 样本 ,大 数据 的 使 用 也 存在 网 络 效 用 ,用 户 越 多 增值 越 快 ,通过 基于 全 样本 的 检 
索 与 推断 ,能 够 完成 精准 的 个 体 推 荐 ,让 企业 整个 生产 效率 极 大 提高 。 大 数据 系统 与 人 的 配 
合 使 得 可 以 更 好 地 提供 答案 ,大 数据 支持 模型 化 ,支持 决策 的 优化 ,也 在 支持 问题 ,方法 和 答 
案 匹 配 的 优化 。 

UPS 快递 高 效 地 利用 了 地 理 定 位 数据 。 为 了 使 企业 总 部 能 在 车 辆 出 现 晚点 的 时 候 跟 
踪 到 车 辆 的 位 置 和 预防 引擎 故障 , 它 的 货车 上 装 有 传感器 无线 适配器 和 GPS。 同 时 ,这 些 
设备 也 方便 了 公司 监督 .管理 员工 并 优化 行车 线路 。UPS 为 货车 定制 的 最 佳 行车 路 径 是 根 
据 过 去 的 行车 经 验 总 结 而 来 的 。2011 年 ,UPS 的 驾驶 员 少 跑 了 近 4828 万 千 米 的 路 程 。 

DHL 是 全 球 知名 的 邮递 和 物流 公司 。 它 是 一 家 传统 行业 的 企业 ,然而 在 移动 互联 网 和 
大 数据 浪潮 中 并 不 落后 ,在 瑞典 推出 了 众 包 模式 送 货 的 移动 应 用 MyWays, 人 们 可 以 通过 移 
动 应 用 报名 投递 自己 行动 路 线 附近 的 包 庄 ,并 获取 报酬 。 此 外 ,DHL 还 把 大 数据 应 用 于 管 
理 物流 风险 ,从 而 为 客户 提供 更 好 的 服务 。 

面向 企业 未 来 发 展 的 数据 来 自 企 业 社 区 、 知 识 管理 、 人 力 资源 管理 ,企业 即时 通信 ,企业 
微 博 等 系统 ,也 有 来 自 社会 公益 组 织 、 政 府 的 数据 。 通 过 企业 内 外 部 数据 的 采集 和 分 析 , 能 
够 实时 反映 企业 战略 目标 的 执行 情况 .差距 ,并 对 未 来 战略 目标 的 实现 进行 提前 的 预测 和 分 
析 , 如 图 2-2 所 示 。 














图 2-2 数据 驱动 的 企业 绩效 管理 


2.2.3 基于 大 数据 驱动 的 商业 机 会 


大 数据 驱动 的 商业 机 会 不 胜 枚 举 , 最 经 典 的 案例 应 该 是 美国 沃尔玛 公司 (WalMart) 将 
尿 不 湿 和 啤酒 摆 放 在 一 起 的 销售 策略 。 沃 尔 玛 对 顾客 的 购物 习惯 进行 关联 规则 分 析 , 从 中 判 
断 顾 客 会 经 常 一 起 购买 哪些 商品 。 沃 尔 玛 利用 数据 挖掘 工具 对 其 保存 在 数据 仓库 里 面 的 所 有 


必 ， 大 点 恬 : 臣 必 赴 昌 语 光 二 
门店 的 交易 数据 进行 分 析 , 得 出 了 和 尿 不 湿 一 起 购买 最 多 的 商品 是 啤酒 的 结论 。 沃 尔 玛 在 所 
有 的 门店 里 将 尿 不 湿 与 啤酒 并 排 摆 放 在 一 起 ,结果 是 尿 不 湿 与 啤酒 的 销售 量 双双 增长 。 

另外 一 个 比较 著名 的 例子 就 是 Target 怀孕 预测 的 案例 。 他 们 对 商品 数据 库 里 的 数 万 
类 商品 和 女性 顾客 的 商品 购买 记录 进行 分 析 , 挖 掘 出 与 怀孕 高 度 相关 的 25 项 商品 ,制作 “ 怀 
孕 预测 ”指数 ,可 以 精确 地 预测 到 客户 在 什么 时 候 想 要 小 孩 ,推算 出 孕妇 的 预产期 等 ,从 而 抢 
先 一 步 给 女性 推荐 相关 的 产品 。 

通常 ,利用 大 数据 进行 商业 机 会 分 析 , 要 遵循 以 下 规则 。 

1. 以 客户 为 中 心 ,挖掘 客户 需求 ,进行 销售 预测 

大 数据 在 用 户 行为 分 析 和 预测 方面 的 应 用 比较 典型 。 通 过 对 用 户 社交 网 站 的 行为 数 
据 ` 浏 览 器 的 日 志 信 息 、 传 感 器 的 数据 等 进行 收集 和 分 析 , 就 可 以 得 到 用 户 的 行为 习惯 ,通过 
建立 数据 模型 ,可 以 对 用 户 的 下 一 步行 为 进行 预测 。 

例如 ,美国 统计 学 家 内 特 。 西 尔 弗 建立 统计 模型 ,成 功 预测 了 2012 年 美国 大 选 的 结果 。 
通过 他 的 预测 ,看 到 奥巴马 有 431 种 胜利 途径 ,对 比 罗 姆 尼 仅 有 76 种 ,奥巴马 总 统 连任 的 机 
会 是 86.3%%。 在 其 他 行业 ,电信 可 以 通过 大 数据 预测 用 户 的 流失 ,从 而 可 以 提前 采取 相应 
的 手段 留 住 客户 ; 汽车 保险 行业 可 以 了 解 客户 的 驾驶 水 平和 需求 ,来 为 顾客 推荐 合适 的 保 
险 等 。 大 数据 对 于 当代 企业 能 够 更 好 地 运营 所 体现 出 的 价值 已 经 不 言 而 喻 。 

(1) 从 全 局 角度 出 发 挖掘 客户 需求 。 众 所 周知 ,数据 蕴含 着 巨大 的 价值 。 但 是 什么 样 
的 数据 最 有 价值 ?” 是 客户 实际 购买 的 信息 ?是 他 们 心中 想 要 的 东西 ?他 们 在 寻找 什么 ”他 
们 社交 网 站 的 活动 记录 ?他 们 网 上 浏览 时 留 下 的 记录 ?品牌 商 观察 顾客 的 数据 是 否 比 顾客 
自己 提供 的 数据 更 可 靠 ? 市 场 分 析 人 员 采 用 的 算法 和 分 析 结 果 的 作用 是 什么 ”当然 有 一 种 
数据 来 源 是 最 可 靠 的 “银色 的 数据 弹 ” 对 吗 ? 

决策 者 为 了 了 解 事 实 真相 ,必须 从 多 个 角度 考虑 问题 ,从 不 同 消费 者 需求 的 角度 出 发 ， 
对 事物 要 有 个 全 局 的 认识 。 因 为 没有 单独 一 种 数据 能 够 描述 和 预测 消费 者 的 所 有 行为 , 正 
如 盲人 摸 象 一 样 。 我 们 分 析 一 下 原因 ,过 去 的 消费 记录 是 很 重要 ,但 即便 最 忠诚 的 顾客 也 会 
在 其 他 品牌 上 花费 时 间 。 另 外 ,实际 上 一 个 品牌 最 合适 的 消费 者 可 能 是 另 一 个 竞争 品牌 更 
棒 的 消费 者 。 知 道 顾客 在 没有 选择 你 的 品牌 时 还 有 哪些 行为 ,这 会 给 你 带 来 许多 线索 ,你 就 
可 以 提高 顾客 的 份额 比重 并 帮助 创造 新 的 产品 和 服务 。 

通常 情况 下 ,我 们 会 询问 顾客 想 买 什么 ,但 这 并 不 全 面 。 有 时 候 消费 者 并 不 总 是 知道 他 
们 实际 需要 什么 ,就 像 是 这 些 消 费 者 在 看 到 iPod 之 前 有 几 个 真 的 想 过 要 买 一 台 ? 另外, 消 
费 者 们 总 是 对 世界 抱 有 一 些 不 切实 际 的 想法 ,一 个 从 数学 角度 来 看 不 可 能 的 现象 是 63% 的 
美国 人 认为 他 们 拥有 超过 平均 水 平 的 智商 。 由 此 将 消费 者 的 想法 和 实际 行为 联系 起 来 至 关 
重要 。 

对 于 产品 搜索 是 不 是 最 好 的 指标 ? 从 统计 学 的 角度 而 言 , 这 个 结果 是 难以 一 概 而 论 的 。 
搜索 是 非常 有 效 的 手段 ,但 是 并 不 能 制造 需求 。 消 费 者 的 网 络 活动 记录 是 否 可 靠 ? 虽然 他 
们 在 完成 诸如 消费 意愿 市 场 调查 时 拥有 巨大 的 潜力 ,但 是 和 其 他 新 兴 技 术 一 样 ,市 场 分 析 人 
员 仍 然 在 摸索 如 何 有 效 地 使 用 这 些 工具 。 为 了 充分 挖掘 市 场 蕴 含 的 潜力 ,当今 企业 必须 培 
养 和 管理 针对 消费 者 的 多 元 数据 分 析 能 力 。 

这 项 战略 需要 综合 统筹 线 上 、 线 下 和 反映 消费 意愿 的 数据 ,以 及 通过 观察 ,推导 、 自 愿 收 
集 和 预测 等 方法 获取 的 数据 ,同时 最 大 限度 地 激活 、 评 佑 和 利用 这 些 数据 。 这 意味 着 需要 将 
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多 元 数据 看 作 是 企业 的 一 项 宝贵 资产 ,将 它 从 传统 消费 者 分 析 的 醋 档 中 解放 出 来 。 

实行 多 元 分 析 就 意味 着 需要 在 企业 的 管理 层 设立 战略 委员 会 来 判断 市 场 分 析 的 成 功 与 
否 。 成 功 的 策划 活动 或 是 完善 的 销售 渠道 固然 不 错 ,但 是 获得 成 功 的 关键 在 于 拓展 客户 所 
带 来 的 价值 。 为 了 实现 这 个 目标 需要 研发 新 的 科学 技术 来 最 大 规模 地 激活 和 评估 企业 数 
据 , 我 们 称 之 为 企业 数据 管理 系统 。 该 系统 的 独特 之 处 在 于 可 以 持续 执行 数据 分 析 从 而 和 
目标 客户 群 建立 高 效 的 沟通 机 制 。 

(2) 客户 特征 分 析 。 在 各 个 行业 中 ,大 数据 业务 应 用 需求 集中 于 满足 以 客户 为 中 心 的 
目标 实现 ,客户 分 析 是 大 数据 应 用 的 重要 领域 。 企 业 希 望 大 数据 技术 有 能 力 更 好 地 了 解 和 
预测 客户 行为 ,并 能 够 改善 客户 体验 。 客 户 分 析 的 重点 是 收集 和 分 析 交 易 数据 、 多 渠道 交互 
数据 、 社 交 媒 体 数 据 会员 卡 服务 数据 及 其 他 与 客户 相关 的 数据 ,以 全 面 提 高 企业 了 解 客户 
偏好 和 需求 的 能 力 ,真正 帮助 营销 、 销 售 和 客户 服务 部 门 实现 客户 关怀 的 目标 。 

客户 分 析 的 主要 维度 : 一 是 全 面 的 客户 数据 分 析 ; 二 是 全 生命 周期 的 客户 行为 数据 分 
析 ; 三 是 能 为 客户 提供 的 服务 价值 分 析 。 

中 全 面 的 客户 数据 一 一 客户 是 谁 ? 

建立 全 面 统一 的 客户 信息 资料 ,通过 客户 唯一 的 身份 标识 号 ,可 以 获取 客户 各 种 相关 数 
据 , 包 括 相 关 业 务 交易 和 服务 数据 。 

@ 全 面 生命 周期 的 客户 行为 信息 一 一 客户 的 真实 需求 是 什么 ? 

对 于 客户 的 历史 交易 、 相 关 信 息 进行 跟踪 分 析 , 分 析 客 户 行为 特点 ,需要 偏好 ,建立 客户 
模型 (比如 阿里 巴巴 的 量子 恒 道 ,数据 魔方 和 生意 参数 ) ,挖掘 客户 的 真实 需求 和 潜在 需求 。 

@@ 能 为 客户 提供 的 产品 和 服务 一 一 服务 价值 分 析 ? 

通过 分 析 客 户 的 真实 需求 和 潜在 需求 .让 客户 参与 产品 和 服务 创新 ,促进 企业 服务 的 改 
进 和 创新 。 

2， 建立 全 方位 客户 数据 分 析 模 型 

(1) 客户 全 面 基本 信息 模型 。 客 户 按照 类 型 可 以 分 为 个 人 客户 和 企业 客户 ,对 应 客户 
的 基本 信息 不 同 ,如 个 人 客户 记录 姓名 、 年 龄 .家 庭 地 址 等 数据 ,企业 客户 记录 企业 名 称 、 企 
业 注 册 地 ,企业 法 人 等 数据 。 从 共同 的 属性 来 看 ,有 客户 基本 属性 和 派生 属性 ,基本 属性 有 客 
户 号 客户 类 型 .客户 信用 度 等 ,派生 属性 是 由 基本 属性 衍生 分 析出 来 的 数据 ,如 客户 满意 度 、 
贡献 度 .风险 度 等 。 客 户 数据 和 客户 交易 数据 ,客户 行为 数据 ,客户 需求 数据 相关 联 , 这 种 关联 
关系 是 通过 客户 服务 的 交易 .购买 的 产品 .产品 厂商 ,账户 等 数据 来 建立 的 ,如 图 2-3 所 示 。 

(2) 客户 价值 需求 模型 。 菲 利 普 。 科 特 款 的 客户 让 渡 价 值 理 论 。 按 照 菲 利 普 。 科 特勤 
的 观点 ,顾客 让 渡 价 值 (Customer Delivered Value.CDV) 是 指 总 顾客 价值 CTotal Customer 
Value,TCV) 与 总 顾客 成 本 (Total Customer Cost,TCC) 之 差 。 总 顾客 价值 是 指 顾 客 期 望 
从 某 一 特定 产品 或 服务 中 获得 的 利益 的 总 和 ,包括 产品 价值 .服务 价值 人 员 价值 和 形象 价 
值 。 总 顾客 成 本 是 指 顾客 为 购买 和 使 用 某 一 特定 产品 或 服务 而 付出 的 代价 的 总 和 ,包括 货 
币 成 本 .时 间 成 本 、 精 力 成 本 和 体力 成 本 (菲利普 。 科 特勤 著 , 梅 汝 和 等 译 .2001) 。 

格 隆 罗斯 的 客户 价值 过 程 理 论 。 格 隆 罗斯 是 从 关系 营销 的 角度 阐述 客户 价值 的 ,他 认 
为 ,价值 过 程 是 关系 营销 的 起 点 和 终点 ,关系 营销 应 该 为 客户 和 其 他 各 方 创造 出 比 单纯 交易 
营销 更 大 的 价值 .并 且 必须 让 客户 感知 到 持续 关系 中 所 创造 的 价值 。 

价值 取向 (Value Orientation) 是 价值 哲学 的 重要 范畴 . 它 指 的 是 一 定 主体 基于 自己 的 
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交易 信息 ”|= 一 ! 
A 客户 基本 属性 | [客户 派生 属性 
服务 机 构 信息 客户 号 忠诚 度 
服务 品种 信息 客户 类 型 购买 频 度 
账户 信息 个 人 下 地 点 代码 购买 准备 
姓名 客户 名 称 客户 级 别 产品 使 用 量 
性 别 注册 日 其 信用 度 贡献 度 
民族 企业 性 质 客户 积分 促销 响应 度 
出 生年 月 上 级 客户 号 | 度 | 
| 家 庭 关山 | 资本 规模 关联 客户 号 | ME 度 | 
婚姻 状况 产值 规模 下 级 客户 号 客户 成 本 | 
联系 信息 | | 教育 状况 | 企业 信用 号 VIP 号 
职务 证 件 类 别 领导 者 信息 | 1w | 
职业 证 件 号 码 | 。 | “信用 级 别 行业 
工作 单位 | | 证 件 有 效 时 间 | [信用 外 部 评价 行业 名称 
工作 背景 | | 收入 水 平 所 在 省 从 pe 
兴趣 /爱好 | | 性 格 代码 联系 人 
| 银行 信用 | | 购买 倾向 联系 电话 i 





























图 2-3 客户 数据 模型 


价值 观 在 面 对 或 处 理 各 种 矛盾 、 冲 突 、 关 系 时 所 持 的 基本 价值 立场 .价值 态度 以 及 所 表现 出 
来 的 基本 价值 倾向 。 价 值 取 向 具有 实践 品格 , 它 的 突出 作用 是 决定 ,支配 主体 的 价值 选择 ， 
因而 对 主体 自身 .主体 间 关 系 、 其 他 主体 均 有 重大 的 影响 。 人 们 在 工作 中 的 各 种 决策 判断 和 
行为 都 有 一 定 的 指导 思想 和 价值 前 提 。 管 理 心理 学 把 价值 取向 定义 为 * 在 多 种 工作 情景 中 
指导 人 们 行动 和 决策 判断 的 总 体 信念 ”。 

人 的 价值 取向 直接 影响 着 工作 态度 和 行为 ,如 图 2-4 所 示 为 客户 价值 取向 的 决定 因素 
模型 。 诺 贝尔 经 济 学 奖 获得 者 .著名 心理 学 家 西蒙 认为 ,决策 判断 有 两 种 前 提 : 价值 前 提 和 
事实 前 提 。 说 明 价 值 取向 的 重要 性 。 客 户 价值 取向 是 客户 基于 自身 的 价值 观 ,需求 .偏好 和 
财务 资源 ,在 面 对 或 处 理 与 供应 商 各 种 矛盾 ` 冲 突 和 关系 时 所 持 的 基本 价值 立场 价值 态度 
以 及 所 表现 出 来 的 基本 价值 倾向 。 

3. 通过 客户 管理 策略 进行 数据 分 析 预 测 和 精准 营销 


(1) 遵循 顾客 至 上 销售 策略 。 经 典 精英 理论 创始 人 维 弗 雷 多 . 帕 雷 托 (Vilfredo 
Pareto) 名 言 指出 : 顶层 20% 的 顾客 创造 了 约 80% 的 总 利润 。 经 验 也 告诉 我 们 ,高 端 客户 可 
以 比 普通 客户 创造 5 倍 甚 至 是 10 倍 的 价值 是 司空 见 惯 的 事 。 而 许多 企业 依然 没有 对 顾客 
利润 测算 在 市 场 分 析 中 的 作用 给 予 充 分 的 重视 。 但 现实 情况 是 市 场 分 析 人 员 往 往 没 有 在 拓 
展 客户 价值 方面 下 足 功 夫 。 事 实 上 ,高 达 60% 的 企业 投入 了 仪 仅 20% 甚 至 更 少 的 市 场 运 作 
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图 2-4 客户 价值 取向 的 决定 因素 模型 


资金 用 于 维护 客户 关系 ,过 半数 的 品牌 企业 无 法 判别 他 们 的 最 佳 客户 群 。 

(2) 客户 分 类 管理 。 企 业 要 根据 需要 对 其 拥有 的 客户 进行 合理 的 分 类 ,并 通过 此 分 类 
建立 起 一 对 一 的 客户 服务 体系 ,实行 差异 化 客户 管理 。 客 户 分 类 的 标准 通常 并 不 固定 ,可 从 
定性 和 定量 两 个 角度 对 客户 进行 分 类 。 

@ 定性 的 客户 分 类 法 。 这 是 宏观 上 对 企业 所 有 的 目标 客户 进行 分 类 的 一 种 方法 。 它 是 
根据 不 同 客户 所 认 知 的 价值 的 侧重 点 不 同 对 客户 进行 的 分 类 。 客 户 价值 的 形成 一 般 可 表 
示 为 : 

价值 二 利益 一 成 本 

企业 为 了 给 客户 提供 更 多 的 价值 ,就 可 以 采用 两 种 不 同 的 方法 , 即 提 高 利益 或 降低 成 
本 。 那 么 ,到 底 是 为 客户 创造 更 多 的 利益 好 ,还 是 提供 价格 更 低廉 的 产品 好 ,应 该 取决 于 客 
户 的 感觉 。 根 据 这 种 感觉 的 不 同 ,可 以 把 客户 分 为 以 下 三 类 。 一 是 内 在 价值 型 客户 。 这 类 
客户 的 特点 是 对 产品 已 有 很 深 的 了 解 , 知 道 产品 是 否 或 在 多 大 程度 上 满足 他 们 的 需求 。 他 
们 只 希望 自己 购买 时 所 花费 的 费用 合理 ,采购 过 程 快捷 便利 ,他 们 对 各 种 建议 和 量 身 定做 不 
感 兴趣 , 低 价格 和 便利 的 采购 程序 可 以 给 他 们 带 来 最 大 价值 和 满足 感 。 二 是 外 在 价值 型 客 
户 。 除 了 产品 本 身 的 价值 外 ,这 类 客户 更 看 重 企业 为 他 们 提供 的 建议 和 个 性 化 订 制 方案 的 
价值 。 他 们 认为 ,销售 人 员 的 帮助 和 建议 会 为 他 们 创造 额外 价值 ,并 且 也 愿意 为 此 支付 额外 
费用 。 这 类 客户 一 般 局 限于 大 中 客户 身上 .因为 客户 规模 太 小 ,创造 的 价值 不 足以 弥补 双方 
所 付出 的 时 间 、 金 钱 和 精力 。 三 是 战略 型 价值 客户 。 这 类 客户 只 可 能 限定 在 企业 的 少数 几 
个 最 大 的 客户 内 。 他 们 要 求 企业 能 为 他 们 投入 大 量 时 间 ,并 建立 起 战略 伙伴 联盟 关系 ,这 种 
联盟 关系 的 长 远 利益 是 可 观 的 。 

加 定量 的 客户 分 类 法 。 因 为 客户 价值 是 客户 管理 中 很 重要 的 一 个 变量 ,我 们 可 以 利用 
这 个 变量 对 客户 进行 定量 分 类 。 由 于 影响 客户 价值 的 因素 主要 有 三 个 , 即 客户 生命 周期 、 
客户 平均 每 次 消费 额 和 客户 平均 消费 周期 ,为 此 ,可 以 建立 如 下 的 数学 模型 : 


CRV = 二 XT 


式 中 : CRV 为 从 核定 期 开始 计算 的 客户 生命 周期 的 客户 价值 ; T 为 从 核定 期 开始 计算 的 客 


大 数据 -数据 管理 与 数据 工程 


户 生 命 周 期 长 度 ; * 为 根据 客户 消费 数据 计算 的 客户 平均 每 次 消费 额 ; 1 为 根据 客户 消费 数 
据 计 算 的 客户 平均 消费 周期 . 可 见 ,客户 价 值 主要 取决 于 客户 生命 周期 长 度 了 ,客户 平均 消 
费 周期 + 和 客户 平均 每 次 消费 金额 ; ,根据 这 三 个 指标 的 不 同 对 客户 进行 如 下 分 类 。 通 常 分 
为 放弃 客户 ,发 展 客户 .白银 客户 和 黄金 客户 。 顾 客 中 心 论 一 直 在 追求 每 一 个 顾客 的 独特 需 
求 , 实 现 一 对 一 的 服务 ,但 受 限于 顾客 影响 因素 太 多 和 复杂 ,甚至 连 顾 客 自己 也 无 法 清晰 定 
义 需求 ; 所 以 这 一 直 蚌 一 个 可 望 不 可 即 的 追求 。 不 可 否认 的 是 技术 进步 一 直 是 接近 这 一 目 
标的 驱动 力 , 从 CRM ,数据 挖掘 ,到 顾客 在 线 定制 ,以 至 于 顾客 参与 设计 、 参 与 创新 ,直接 反 
人 馈 产 品 和 服务 ,不 断 推 动 着 这 一 进程 ; 今天 ,基于 大 数据 ,整合 顾客 消费 \ 行 为 .生活 数据 , 企 
业 组 织 可 以 更 好 地 提取 顾客 模式 ,提供 个 性 产品 和 精准 服务 ,提高 顾客 忠诚 度 ; 针对 潜在 顾 
客 , 可 以 进行 精准 营销 ,进行 消费 倾向 管理 ,使 其 转化 为 企业 真实 客户 ; 基于 长 尾 效应 ,企业 
可 以 服务 个 性 化 小 众 市 场 ,拓展 市 场 空间 。 最 重要 的 是 顾客 和 市 场 是 一 个 时 刻 变化 的 过 程 ， 
每 个 人 需求 不 尽 相 同 ,而 且 时 刻 在 变化 。 每 一 个 人 在 追求 与 众 不 同 的 同时 ,文化 和 社会 结构 
又 让 大 家 寻求 一 致 化 ,例如 ,一 个 强调 客户 个 性 化 的 企业 是 否 要 求 员 工 统一 服装 ? 大 数据 无 
时 无 刻 不 在 进行 着 市 场 分 类 、 客 户 分 类 和 管理 对 象 的 多 维度 分 类 ; 大 数据 使 得 组 织 得 以 考 
虑 这 种 个 性 化 、. 社 群 化 及 其 动态 变化 共同 决定 的 顾客 .产品 市 场 . 员 工 市 场 , 经 理 人 市 场 、 资 
本 市 场 变 化 ,并 支持 做 出 与 之 匹配 的 决策 。 大 数据 使 得 在 企业 组 织 在 更 多 维度 ,根据 不 同 场 
景 和 状态 实施 分 类 成 为 可 能 。 


2.3 大 数据 市 场 的 行业 应 用 需求 


根据 中 国 大 数据 市 场 行业 应 用 情况 占 比 分 析 和 应 用 成 熟 度 分 析 , 如 图 2-5 所 示 , 本 节 大 
数据 行业 应 用 情况 主要 结合 热点 行业 和 应 用 成 熟 度 行业 展开 说 明 。 


中 国 大 数据 市 场 行业 契合 度 及 应 用 可 能 分 析 中 国 大 数据 市 场 集 中 度 与 成 熟 度 分 析 





市 场 成 熟 度 
规范 化 应 用 阶段 所 一 数据 整合 化 阶段 所 一 教 据 标准 化 阶段 
图 2-5 中 国 大 数据 市 场 行业 应 用 情况 分 析 





2.3.1 移动 互联 网 和 社交 网 络 


在 投身 大 数据 的 众多 玩家 中 ,电信 运营 商 无 疑 是 最 为 特殊 的 。 庞 大 的 网 络 规模 和 用 户 
基础 ,提供 了 最 全 面 的 大 数据 样本 ; 语音 经 营 向 流量 经 营 的 转型 需求 ,以 及 来 自 互 联网 企业 
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和 OTT 业务 冲击 下 的 “被 边缘 化 "危机 ,也 使 之 具有 推进 大 数据 应 用 的 迫切 动力 。 

运营 商 的 大 数据 可 以 分 为 三 个 层次 ,身份 信息 和 账号 等 用 户 作为 自然 人 个 体 的 基础 信 
息 数 据 、 用 户 使 用 运营 商业 务 产生 的 行为 信息 数据 ,以 及 其 他 任何 企业 所 不 具备 的 网 管 日 志 
和 信号 强度 等 基层 网 络 数 据 。 这 些 信息 整合 起 来 可 以 发 现 运营 商 所 拥有 的 大 数据 具有 非常 
典型 的 特性 一 一 既 有 用 户 真实 生活 的 数据 也 有 虚拟 社会 的 实时 数据 ,这 是 运营 商 大 数据 与 
互联 网 企业 大 数据 的 最 大 区 别 。 在 以 全 面 性 ,实时 性 取胜 的 同时 ,运营 商 大 数据 的 质量 譬如 
关联 性 、 可 靠 性 也 较 高 ,而 处 理 的 单位 成 本 更 低 ,由 此 带 来 了 更 高 的 应 用 价值 和 挖 握 潜力 。 

从 运营 商 大 数据 的 具体 应 用 方向 来 看 ,当前 主要 集中 在 4 个 方向 : 流量 经 营 精细 化 , 智 
能 客服 中 心 建设 ,基于 个 性 化 服务 的 客户 体验 提升 ,以 及 对 外 数据 服务 等 。 

中 国 移动 通信 集团 公司 是 中 国 规模 最 大 的 移动 通信 运营 商 , 也 是 全 球 用 户 规模 最 大 的 
移动 运营 商 。 基 于 大 云 平台 构建 了 海量 存储 处 理 和 数据 分 析 和 挖掘 等 核心 能 力 , 利 用 现 有 
数据 ,探索 大 数据 技术 ,已 在 河北 等 省 试点 ,并 尝试 利用 大 数据 技术 识别 异常 话 单 。 江 苏 移 
动 建立 了 “智慧 洞察 "(Smart Insights) 对 外 数据 服务 平台 。 该 平台 依托 大 数据 强大 的 处 理 
能 力 与 海量 数据 ,基于 完全 匿名 和 聚合 后 的 数据 ,利用 统计 分 析 、 数 据 挖掘 等 技术 ,提供 标准 
化 数据 产品 ,大 数据 分 析 报 告 .高效 OpenAPI 服务 。 为 社会 ,政府 .企业 以 及 家 庭 ` 个 人 客户 
提供 经 过 分 析 挖 掘 而 形成 的 价值 产品 与 服务 ,实现 数据 价值 提升 与 共享 。 

中 国联 通 全 面 启动 了 以 数据 为 中 心 的 、 集 中 化 和 一 体 化 的 IT 系统 建设 ,未 来 的 建设 模 
式 转变 为 “平台 十 应 用 ”的 模式 ,构建 全 集团 唯一 的 、 集 中 、 开 放 的 大 数据 平台 ,并 在 这 个 平台 
上 构建 各 种 各 样 的 应 用 。 把 所 有 IT 核心 的 数据 、 网 元 侧 的 数据 、 互 联网 的 数据 ,乃至 与 外 
部 合作 和 关联 企业 或 者 第 三 方 交换 的 数据 ,全 部 整合 ,形成 能 够 反映 企业 全 景 、 客 户 全 景 、 所 
有 产品 /渠道 的 大 数据 平台 。 这 个 平台 采用 大 数据 技术 处 理 海 量 数据 ,并 且 能 够 将 不 同 需 
求 ,不 同业 务 有 效 整 合 , 为 上 层 应 用 提供 定制 化 的 服务 。 

大 数据 开启 了 电子 商务 行业 的 时 代 转 型 。 电 商 和 传统 商家 的 最 大 区 别 在 于 : 电 商 构建 
的 各 类 型 数据 库 能 够 涵盖 商家 信息 ,用 户 信息 ,行业 资讯 .产品 使 用 体验 .商品 浏览 记录 、 商 
品 成 交 记 录 ,产品 价格 动态 等 海量 信息 。 电 商行 业 大 数据 背后 隐藏 的 是 电 商行 业 的 用 户 需 
求 、 竞 争 情报 ,蕴藏 着 巨大 的 财富 价值 。 借 助 大 数据 挖掘 与 分 析 技 术 , 电 商 不 仅 可 以 提高 营 
销 转化 为 购买 行为 的 成 功率 ,还 能 降低 营销 成 本 ,使 产品 更 契合 用 户 的 需求 ,全 面 提升 企业 
竞争 力 。 

当前 ,我国 主要 的 电子 商务 企业 都 在 积极 探索 大 数据 应 用 ,主要 集中 在 以 下 方面 。 

(1) 大 数据 助 推 创新 性 平台 化 策略 。 消 费 群体 的 需求 是 多 样 并 能 被 延伸 的 。 为 了 服务 
这 些 延 伸 的 消费 需求 . 电 商 采用 平台 搭建 方式 ,通过 开放 平台 吸引 第 三 方 商家 经 营 ,能 够 提 
高 电 商 平台 渠道 的 利用 效率 ,也 丰富 了 电 商 平台 的 商品 品类 ,满足 用 户 延 伸 消 费 的 需求 , 赢 
取 竞 争 优势 。 以 京东 、 阿 里 巴巴 为 首 构建 的 全 品类 覆盖 的 综合 性 平台 拉 开 了 与 其 他 中 小 型 
电子 商务 企业 的 差距 。 

(2) 市 场 预测 。 基 于 大 数据 预测 技术 能 够 实现 产品 从 开发 .生产 、 销 售 到 物流 整个 链条 
的 智能 化 和 快速 反应 。 通 过 对 海量 数据 的 收集 ,甄别 与 分 析 处 理 , 不 仅 可 以 为 终端 的 市 场 用 
户 勾勒 出 消费 习惯 消费 能 力 的 “用 户 画像 ,大 数据 分 析 还 能 获取 产品 在 各 区 域 . 各 时 间 段 、 
各 消费 群 的 库存 和 预 售 情况 与 发 展 趋势 等 ,基于 大 数据 预测 技术 能 够 实现 从 产品 开发 、 生 
产 、 销 售 到 物流 等 的 整个 链条 的 智能 化 和 快速 反应 。 
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(3) 精准 营销 。 大 数据 对 电 商 行业 的 影响 最 典型 的 就 是 营销 领域 。 对 于 电 商 来 说 ,如 
何 将 产品 定向 推荐 给 需要 的 用 户 , 始 终 是 电 商 的 核心 关注 点 。 消 费 数 据 量 的 急剧 增加 为 电 
商 企业 精确 把 握 用 户 群体 和 个 体 网 络 行为 模式 葛 定 了 基础 。 电 商 企 业 通 过 大 数据 应 用 , 划 
分 细 分 群体 与 单 体 受众 的 心理 层次 ,进行 个 人 化 ` 个 性 化 、 精 确 化 和 智能 化 广告 推送 与 推广 
服务 的 探索 。 

(4) 用 户 体验 。 作 为 核心 的 服务 理念 ,电子 商务 用 户 体验 很 大 程度 上 决定 了 电子 商务 
未 来 的 成 败 。 要 让 消费 者 最 大 限度 地 感受 消费 的 归属 感 .满足 感 和 幸福 感 , 需 要 电 商 企业 提 
供 更 智能 .人 性 与 差异 化 的 服务 ,实现 双赢 的 深度 价值 创造 。 在 用 户 体验 方面 ,各 大 电 商 包 
括 垂直 电 商 都 形成 了 各 具 特 色 的 个 性 化 服务 ,用 以 提升 用 户 体 验 。 如 基于 用 户 画 像 为 客户 
量 身 定做 咨询 应 答 策略 ,如 快速 理解 用 户 意图 .针对 性 商品 评测 或 商品 推荐 .个 性 化 关怀 等 。 

(5) 物流 与 仓储 优化 。 电 子 商务 与 物流 业 的 合作 随 着 云 计算 、 物 联网 和 数据 应 用 等 技 
术 的 突破 越 来 越 紧密 ,大 数据 改变 了 物流 业 的 服务 方向 和 服务 内 容 , 对 于 客户 数据 的 分 析 也 
就 不 仅 局 限于 电 商 企业 单 向 操作 。 通 过 对 客户 数据 的 分 析 企 业 能 够 更 合理 地 选择 派送 方 
式 , 优 选 路 径 , 提供 差异 化 服务 ,提高 物流 服务 的 质量 ,提升 电 商 物 流 业 的 品牌 形象 。 


2.3.2 政府 公共 管理 


大 数据 的 驱动 力 和 引领 作用 正在 给 以 政府 为 主导 的 公共 管理 领域 带 来 革命 性 变化 。 在 
国家 政策 引导 和 支持 下 ,各 级 政府 和 组 织 顺应 大 数据 与 云 计 算 融 合 发 展 的 技术 和 应 用 趋势 ， 
积极 探索 公共 管理 领域 的 大 数据 应 用 实践 ,大 数据 在 支撑 履行 政府 职能 、 保 障 公共 安全 、 实 
施 社会 治理 、 支 持 重 大 决策 和 改进 公共 服务 等 方面 发 挥 出 越 来 越 重 要 的 作用 。 

1. 大 数据 有 效 支 撑 公 共 安 全 

公安 行业 经 过 “金盾 工程 "建设 .形成 了 面向 部 门 、 警 种 的 各 类 条 线 业 务 系统 ,以 及 面向 
多 部 门 协作 和 底层 信息 支撑 的 综合 业务 系统 ,建成 了 可 以 全 国 范围 内 共享 的 8 大 业务 信息 
资源 库 。 公 安 行业 积累 的 庞大 数据 ,几乎 和 所 有 行业 在 数据 层面 都 有 密切 交互 。 在 大 数据 
时 代 , 走 科技 强 警 .信息 化 强 警 的 大 数据 之 路 是 解决 警力 不 足 等 实际 问题 的 重要 途径 。 

为 了 应 对 大 数据 、 云 计算 时 代 对 下 一 代 公安 信息 化 建设 的 挑战 ,公安 部 多 措 并 举 , 积 极 推 
进 公 安 行业 大 数据 应 用 实践 。 例 如 ,在 浙江 警察 学 院 建立 了 大 数据 应 用 重点 实验 室 ,2014 年 
公安 部 交通 管理 科学 研究 所 与 浪潮 集团 进行 战略 合作 ,建立 交通 管理 大 数据 挖掘 研判 及 云 
计算 技术 应 用 联合 实验 室 。2012 年 ,山东 省 公安 厅 携 手 浪 潮 集团 创新 推出 了 大 数据 警 务 云 
计算 中 心 建设 工程 ,建成 了 “智能 化 全 时 空 大 数据 预警 系统 ”新 一 代 超级 智能 化 搜索 引擎 
“ 警 务 千 度 "等 大 数据 应 用 ,推动 和 引领 了 大 数据 和 云 计算 技术 融合 的 新 一 代 公 安 行业 信息 
化 平台 建设 。 

近年 来 ,公安 行业 的 大 数据 应 用 实践 在 提高 反 铠 能 力 、 预 测 犯 罪 趋势 、 推 进 案件 侦破 、 破 
解 交通 难题 等 方面 取得 了 比较 丰硕 的 成 果 。 例 如 ,北京 公安 110 指挥 部 积极 探索 践 行 大 数 
据 警 务 战 略 ,自主 研发 了 警 情 热 点 分 布 图 等 辅助 指挥 技术 ; 上 海 交 警 利用 大 数据 系统 破解 
大 城市 的 交通 难题 ,圆满 完成 了 2014 年 第 4 次 亚信 峰会 的 交通 保障 任务 ; 苏州 公安 上 线 了 
依靠 大 数据 ”理念 建设 了 犯罪 预测 系统 。 总 体 来 看 ,各 级 公安 机 关 的 大 数据 应 用 实践 有 效 
地 提升 了 各 警 种 的 实战 能 力 ,大 数据 技术 正在 成 为 驱动 和 引领 警 务 改革 的 关键 要 素 。 
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2. 大 数据 改变 工商 管理 模式 

2015 年 4 月 28 日 ,基于 大 数据 理念 建设 的 国家 工商 总 局 广告 数据 中 心 正式 启用 ,基本 
实现 了 对 31 个 省 (区 市 )332 个 市 所 有 媒体 、 全 类 广告 的 全 和 覆盖、 全 天 候 监 测 , 计 划 三 年 内 监 
测 范围 将 进一步 扩展 到 全 国 两 千 八 百 多 个 县 。 各 级 工商 管理 部 门 广告 监管 机 关 , 可 依托 该 
系统 提供 的 大 数据 ,实时 掌握 了 解 各 地 广告 市 场 情况 ,及 时 派发 监测 发 现 的 违法 广告 线索 ， 
形成 证 据 提 供 、 案 件 交办 、 立 案 查 处 、 结 果 反馈 一 体 化 的 监管 指挥 系统 ,提升 广告 监管 执法 
效能 。 

此 外 ,为 探索 大 数据 对 提高 市 场 主体 的 监管 效率 .规范 市 场 秩序 等 方面 的 重要 作用 , 国 
家 工商 总 局 先后 与 浪潮 .百度 .阿里 .京东 、 龙 信 、 拓 普 海 云 . 腾 讯 8 家 数据 公司 开展 合作 ,并 
选 定 了 10 家 试点 单位 先行 ,围绕 主体 监管 和 扶持 小 微 企 业 发 展 两 方面 11 项 内 容 展开 大 数 
据 分 析 应 用 。 

目前 ,各 试点 单位 积极 采用 大 数据 技术 ,通过 内 部 集中 工商 组 织 数据 、 横 向 汇集 其 他 政 
府 部 门 数据 .向 外 扩展 关联 互联 网 收集 数据 ,构建 新 型 监管 模型 和 系统 性 风险 防 控 机 制 , 取 
得 了 显著 成 效 。 

3. 大 数据 帮助 税源 监控 ,税收 预测 .风险 预警 

在 税务 行业 ,当前 已 掌握 了 纳税 人 在 税务 登记 、 税 务 申报 、 税 务 稽查 .税收 评定 等 各 个 环 
节 的 海量 数据 信息 ,不 仅 如 此 ,通过 第 三 方 数据 交换 渠道 ,税务 机 关 还 掌握 了 来 白 海关 、 工 
商 、 银 行 、 统 计 . 工 信 、 公 安 、 社 保 . 财 政 等 部 门 与 纳税 人 生产 经 营 有 关 的 涉 税 数据 。 

基于 掌握 的 海量 数据 ,税务 总 局 进行 了 以 下 积极 探索 。 

(1) 税源 监控 。 通 过 税源 分 析 和 挖掘 ,实时 监控 税收 收入 进度 及 税源 变化 情况 ,及 时 开 
展 比 对 分 析 和 检查 评估 ,有 效 提 升 税源 质量 ,减少 税源 流失 ,加 强 堵 漏 征收 。 

(2) 税收 预测 。 通 过 宏观 与 微观 数据 分 析 相 结合 ,加 强 税收 政策 .经 济 和 税收 关系 分 
析 ,准确 判断 风险 税收 经 济 之 间 的 关系 ,精准 预测 税收 形势 ,科学 估算 税收 收入 规模 ,为 组 织 
收入 工作 提供 依据 。 

(3) 风险 预警 。 通 过 建立 数据 模型 及 信息 综合 比 对 ,对 纳税 人 生产 经 营 活动 中 的 涉 税 
风险 进行 精准 监控 和 提醒 ,形成 以 大 数据 为 基础 的 风险 识别 .风险 排序 、 风 险 分 析 、 风 险 应 
对 、 绩 效 评价 的 完整 闭环 风险 管理 流程 。 

4. 大 数据 提供 司法 行业 实证 信息 研究 服务 

在 司法 行业 ,人 民法 院 以 “大 数据 、 大 格局 、 大 服务 ”理念 为 指导 ,运用 顶层 设计 理念 构建 
“数据 集中 管理 平台 ”, 建 立 数 据 全 生命 周期 治理 机 制 ,整合 全 国法 院 司 法 信息 资源 ; 并 运用 
语词 提取 ,语义 分 析 等 现代 化 大 数据 分 析 技 术 , 探 索 实 证 信息 研究 服务 。 

当前 ,已 汇聚 了 全 国 5000 万 案件 信息 和 2400 万 裁判 文书 信息 ,实现 数据 海量 存储 、 科 
学 分 类 、 多 元 检索 .深入 分 析 : 在 第 一 时 间 提 供 涉 众 型 经 济 犯罪 ,两 抢 一 盗 ,强制 医疗 .知识 产 
权 纠 纷 等 社会 热点 类 案 专项 深度 分 析 ,探寻 新 形势 下 审判 执行 工作 的 特点 和 规律 ,促进 社会 
治理 创新 。 进 一 步 发 挥 平台 中 枢 作 用 ,构建 安全 共享 交换 体系 ,提升 各 类 数据 在 跨 应 用 系统 
间 、 跨 法 院 层 级 间 、 跨 政府 部 门 间 、 跨 内 外 网 系 间 的 传输 效率 和 共享 水 平 ,将 更 多 的 司法 信息 
资源 对 社会 公众 公开 .并 为 诉讼 当事人 和 代理 人 提供 司法 大 数据 分 析 服 务 , 加 快 构建 开放 、 
动态 、 透 明 、 便 民 的 阳光 司法 机 制 ,让 人 民 群 众 在 每 一 个 司法 案件 中 切实 感受 到 公平 正义 。 
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5. 用 大 数据 保障 公共 安全 

大 数据 的 应 用 和 发 展 可 以 帮助 公共 服务 更 好 地 优化 模式 ,提升 社会 安全 保障 能 力 和 面 
对 突 发 情况 的 应 急 能 力 。 作 为 大 数据 方面 的 开拓 者 一 一 美国 ,在 应 用 大 数据 来 治理 社会 和 
稳定 社会 这 方面 的 成 绩 显著 。 

美国 国家 安全 局 和 交通 安全 局 基于 数据 挖掘 技术 ,开发 了 计算 机 辅助 乘客 筛选 系统 ,为 
美国 本 土 各 个 机 场 提供 应 用 接口 。 该 系统 将 乘客 购买 机 票 时 提供 的 姓名 、 联 系 地 址 、 电 话 号 
码 、 出 生日 期 等 信息 输入 商用 数据 库 中 ,商用 数据 库 则 据 此 将 隐 含 特殊 危险 等 级 的 数字 分 值 
传送 给 交通 安全 局 : 绿色 分 值 的 乘客 将 接受 正常 筛选 ,黄色 分 值 的 乘客 将 接受 额外 筛选 , 红 
色 分 值 的 乘客 将 被 禁止 登 机 , 且 有 可 能 受到 法 律 强 制 性 的 关照 。 

同时 ,利用 大 数据 也 可 预防 犯罪 案件 的 发 生 。 加 利 福 尼 亚 州 桑 塔 克 鲁 兹 市 使 用 犯罪 预 
测 系统 ,对 可 能 出 现 犯 罪 的 重点 区 域 . 重 要 时 段 进 行 预测 ,并 安排 巡警 巡逻 。 在 所 预测 的 犯 
罪 事 件 中 ,有 2/3 真 的 发 生 。 系 统 投 入 使 用 一 年 后 ,该 市 人 室 行窃 率 减少 了 11%, 偷 车 率 减 
少 了 8%, 抓 捕 率 上 升 了 56%。 

另外 ,大 数据 也 可 以 推进 案件 的 侦破 。 这 方面 最 经 典 的 案例 应 该 是 波士顿 连环 爆炸 案 
的 成 功 告破 。2013 年 4 月 15 日 ,美国 波士顿 在 举办 马拉松 比赛 的 过 程 中 发 生 连续 炸弹 爆 
炸 案 , 导 致 3 人 死亡 .183 人 受伤 。 案 件 发 生 后 警方 不 仅 走访 了 事 发 地 点 附近 12 个 街区 的 
居民 ,收集 可 能 存在 的 各 种 私人 录像 和 照片 ,还 大 量 收集 网 上 信息 ,包括 信息 社交 网 站 上 出 
现 的 相关 照片 .录像 等 ,并 在 这 些 网 站 上 向 公众 提出 收集 相关 信息 的 请 求 。 通 过 对 各 方面 数 
据 的 比 对 、 查 找 ,警方 从 录像 中 截取 出 了 嫌疑 人 照片 并 发 出 通缉 令 , 从 而 为 最 终 追 捕 罪犯 提 
供 了 确凿 的 证 据 和 可 靠 的 参考 。 


2.3.3 教育 科研 行业 


教育 大 数据 的 主要 目的 是 为 不 同 利益 相关 者 提供 精准 的 教育 服务 ,如 学 生 的 学 习 、 教 师 
的 教学 、 开 发 者 的 资源 开发 .教育 管理 者 的 决策 等 ; 其 核心 是 精准 获取 学 习 者 的 需求 ,为 学 
习 者 提供 精准 教育 服务 ; 其 数据 主要 来 源 于 各 类 教育 系统 ,包括 学 习 管理 系统 (Learning 
Management System.LMS) .内 容 管理 系统 (Content Management System, CMS) .电子 档 
案 系 统 (e-Portfolio System,EPS) 、 智 能 培训 系统 (Intelligent Training System,ITS) ,社会 
性 学 习 系 统 (Social Learning System,SLS) ,实时 教学 系统 (Live Teaching System Based on 
Classroom,LTS)、 学 习 设 计 系统 (Learning Design System,LDS) 和 学 生 信息 管理 系统 
(Student Information System,SIS) 等 。 应 用 和 分 析 的 教育 大 数据 技术 主要 为 教育 数据 挖掘 
技术 和 学 习 分 析 技 术 ,当前 研究 热点 为 学 习 分 析 。 学 习 分 析 是 以 理解 和 优化 学 习 及 其 发 生 
的 环境 为 目的 ,对 学 习 者 及 其 所 处 情境 的 数据 进行 的 测量 .收集 .分 析 和 报告 ,其 焦点 是 分 析 
学 习 行 为 相关 的 数据 ,过程 ,以 及 呈现 的 方式 。 
国外 主要 机 构 相 关 标 准 制定 与 项 目 有 美国 “高 级 分 布 式 学 习 ” 组 织 的 Experience API 
标准 、IMS Caliper Analytics 学 习 测 评 框 架 、 欧 盟 学 习 分 析 项 目 LACE(Learning Analytics 
Community Exchange. 学 习 分 析 社 区 交流 ) 等 ; 国家 标准 组 织 ISO/TEC JTC1SC36WG8 学 
习 分 析 互 操作 工作 组 正在 制定 “学习 分 析 互 操作 术语 与 参照 模型 "标准; 而 全 国信 息 技术 标 
准 化 技术 委员 会 教育 技术 分 委员 会 成 立 学 习 分 析 研 究 工 作 组 开展 教育 大 数据 相关 标准 
研究 。 
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1. 利用 大 数据 进行 教育 科研 

科学 数据 是 人 类 在 认识 自然 发展 科技 的 活动 中 产生 和 积累 的 数据 ,是 人 类 长 期 科学 活 
动 的 知识 积累 ,是 一 种 重要 的 基础 资源 和 战略 资源 。 中 国 科学 院 作 为 中 国 自 然 科 学 的 研究 
中 心 , 在 长 期 的 科学 研究 实践 中 ,通过 观测 .考察 .实验 .计算 等 多 种 途径 产生 和 积累 了 大 量 
具有 重要 科学 价值 和 实用 意义 的 科学 数据 和 资料 。 

1983 年 ,中 国 科学 院 提 出 了 “科学 数据 库 及 其 信息 系统 ”的 建设 项 目 ,1986 年 被 国家 计 
委 列 为 国家 “七 五 "和 “ 八 五 ”期 间 的 重点 工程 项 目 。 自 此 开始 ,经 过 中 国 科 学 院 的 持续 支持 ， 
以 及 科技 工作 者 的 不 懈 努 力 , 该 项 目 取得 了 丰硕 的 成 果 ,1997 年 获 中 国 科 学 院 科技 进步 一 
等 奖 ,1998 年 获 国家 科技 进步 二 等 奖 ,到 2001 年 “科学 数据 库 及 其 信息 系统 ”已 经 成 为 国内 
信息 量 最 大 、 学 科 专 业 最 广 、 服 务 层次 最 高 .综合 性 最 强 的 科学 信息 服务 系统 ,成 为 科研 工作 
的 基础 设施 之 一 。“ 十 一 五 "期间, 中国 科学 院 科学 数据 库 的 中 国 科 学 院 信息 化 建设 重要 基 
础 设施 的 定位 进一步 加 固 ,各 方面 的 工作 都 取得 了 重大 进展 与 突破 : 数据 资源 建设 了 51 个 
数据 库 , 整 合 可 共享 的 数据 量 达 148TB; 服务 环境 基本 形成 了 由 网 格 运 行 服务 总 中 心 、 学 科 
领域 网 格 主 节点 和 数据 资源 网 格 节点 三 层 架构 的 科学 数据 网 格 体 系 ; 基本 完成 了 科学 数据 
资源 建设 和 服务 标准 体系 的 建设 ,同时 研发 部 署 了 系列 工具 软件 支撑 标准 规范 的 实施 。 科 
学 数据 库 已 初步 形成 结构 合理 的 科学 数据 资源 体系 ,并 取得 了 数据 资源 整合 服务 的 良好 效 
果 , 以 及 社会 应 用 效果 。 

“十 二 五 ”期间 ,该 项 目 作为 中 国 科 学 院 信息 专项 “科技 云 ” 的 重要 内 容 ,继续 融合 大 数据 
和 云 计 算 等 新 技术 建设 "科技 数据 资源 整合 与 共享 工程 ”截至 2014 年 年 底 项 目 可 共享 总 数 
据 量 超 450TB ,并 面向 融合 大 数据 和 云 计 算 等 新 技术 继续 完善 标准 规范 体系 。 同 时 ,项 目 
继续 延展 服务 科学 研究 和 社会 应 用 ,重点 支持 了 国家 863 计划 、 国 家 973 计划 、 国 家 自然 科 
学 基金 .国家 科技 支撑 项 目 、 国 际 合 作 项 目 、 中 国 科学 院 创新 性 项 目 、 先 导 专 项 等 若干 数据 密 
集 型 的 科研 应 用 ,起 到 了 良好 的 示范 作用 ,为 科学 研究 .国家 宏观 决策 .国民 经 济 建设 与 社会 
发 展 等 做 出 了 重要 贡献 ,产生 了 良好 的 社会 效果 。 

大 数据 时 代 , 科 学 模式 已 经 变革 为 “数据 密集 型 科学 "的 科研 第 四 范式 阶段 ,部 分 学 科 领 
域 的 科研 活动 已 经 成 为 典型 的 大 数据 行为 ,科学 家 有 机 会 利用 海量 的 科学 数据 去 探索 世界 ， 
开展 此 前 无 法 进行 的 研究 ,解决 此 前 难以 解决 的 科学 问题 ,产生 突破 性 进展 。 近 年 来 ,国际 
上 的 一 些 科学 研究 成 果 充分 证 实 了 这 一 现实 趋势 ,如 生物 领域 和 医学 领域 基于 大 规模 DNA 
序列 数据 对 生命 现象 的 新 认 知 ,大 型 强 子 对 撞 机 产生 的 海量 实验 数据 帮助 高 能 物理 学 家 找 
得 希 格 斯 粒子 等 。 科 学 领域 曾 是 大 数据 的 领先 阵地 ,当前 也 正 乘势 快速 发 展 中 ,未 来 科研 大 
数据 将 是 人 类 科研 革命 和 社会 进步 的 重要 支撑 。 

2. 利用 大 数据 促进 教育 行业 变革 

在 教育 工作 中 ,特别 是 学 校 教 育 , 数 据 成 为 教学 改进 显著 的 目标 。 美 国 国家 教育 统计 中 
心 已 经 把 中 小 学 和 大 学 的 学 生 学 习 行 为 .考试 分 数 和 职业 规划 等 重要 的 数据 存储 起 来 ,用 于 
统计 和 分 析 。 而 近年 来 越 来 越 多 的 网 络 在 线 教 育 和 大 规模 开放 式 网 络 课程 的 兴起 ,使 教育 
领域 中 的 大 数据 获得 了 更 为 广阔 的 应 用 空间 。 

教育 领域 中 大 数据 分 析 的 最 终 目 的 是 提高 学 生 的 学 习 成 绩 。 美 国教 育 部 门 创造 了 一 套 
“学 习 分 析 系 统 ”, 将 教育 和 大 数据 相 结 合 。 该 系统 是 一 个 数据 挖掘 和 案例 运用 的 联合 框架 ， 
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主要 向 教育 工作 者 提供 影响 学 习 成 绩 的 原因 等 信息 ,为 教师 提供 提高 学 生成 绩 更 准确 有 效 
的 办 法 。 

美国 已 经 存在 一 些 企业 成 功 地 商业 化 运作 了 教育 中 的 大 数据 。 例 如 ,IBM 与 亚 拉 巴 马 
州 的 莫 白 儿 县 公共 学 区 在 大 数据 方面 展开 合作 ,从 而 较 好 地 改善 了 该 学 区 的 辍学 情况 ; 希 
维 塔 斯 学 习 (Civitsa Learning) 在 高 等 教育 领域 建立 了 最 大 的 跨 校 学 习 数 据 库 , 通 过 这 些 海 
量 数据 ,可 以 看 到 学 生 的 分 数 .出 勤 率 . 辍 学 率 和 保留 率 等 数据 的 主要 趋势 ; 梦 盒 学 习 
(Dream Box Learning) 公 司 和 纽 顿 (Knewton) 公 司 已 经 成 功 创造 并 发 布 了 各 自 的 利用 大 数 
据 的 适应 性 学 习 系 统 。 

在 我 国 ,百度 推出 了 “百度 预测 ”, 在 2014 年 也 通过 数据 分 析 , 预 测 出 高 考 作文 题目 的 出 
题 范 围 将 会 在 “生命 的 多 彩 ”“ 时 间 的 馈赠 ”等 6 个 领域 中 ,并 且 给 出 了 各 领域 命中 的 精确 概 
率 。 对 试题 的 精确 预测 ,也 可 以 较 大 程度 上 提高 学 生 的 学 习 成 绩 。 


2.3.4 金融 行业 


面 对 互联 网 金融 的 竞争 压力 ,金融 企业 急需 重 构 以 金融 大 数据 分 析 为 基础 的 决策 和 服 
务 体系 ,提升 自身 竞争 力 和 客户 满意 度 。 在 大 数据 时 代 , 银 行 数 据 量 不 断 增加 , 现 有 以 交易 
为 核心 的 数据 处 理 系统 ,无 法 满足 大 数据 处 理 的 要 求 。 金 融 企业 更 需要 建设 第 二 数据 平面 ， 
以 处 理 更 多 维 、 更 大 量 的 数据 。 

金融 大 数据 典型 应 用 场景 包括 : 历史 交易 明细 查询 、 实 时 征 信 、 实 时 事件 营销 、 客 户 行 
为 分 析 等 。 大 数据 解决 方案 围绕 金融 大 数据 的 采集 、 存 储 、 处 理 , 洞 察 和 服务 ,为 银行 开发 新 
业务 ,提供 业务 支撑 ,激发 金融 创新 活力 。 解 决 方案 提供 的 主要 功能 包括 : 海量 结构 化 / 
非 结构 化 数据 的 采集 、 存 储 、 批 处 理 , 内 存 计算 和 实时 流 计 算 的 能 力 ; @ 百 万 维 大 数据 特征 
提取 ,管理 , 建 模 的 能 力 , 帮 助 客户 直接 实现 小 微 贷款 预测 或 金融 资产 预测 等 业务 ; 回 历史 
交易 明细 查询 、 实 时 征 信 、 实 时 事件 营销 等 ,让 客户 更 专注 大 数据 业务 开发 本 身 , 更 方便 地 使 
用 大 数据 能 力 。 并 具有 易 用 性 和 复杂 查询 能 力 , 可 实现 与 银行 现 有 数据 库 、 数 据 仓库 的 无 缝 
对 接 。 此 外 , 需 根据 银行 生产 系统 的 规范 ,在 大 数据 的 可 靠 性 、 安 全 性 、 易 用 性 方面 进行 了 增 
强 和 适 配 , 如 支持 金融 数据 异地 容 灾 等 。 

数据 分 析 在 金融 业 中 最 直接 的 应 用 是 个 人 信用 等 级 的 评估 。 美 国 个 人 消费 信用 评估 公 
司 FICO 在 20 世纪 50 年 代 发 明了 信用 积分 概念 和 评价 方法 ,根据 支付 历史 、 欠 款 金额 和 使 
用 信用 卡 时 间 长 度 等 信用 报告 指标 进行 信用 评分 ,并 用 于 个 人 信贷 等 领域 。 进 入 大 数据 时 
代 后 , 越 来 越 多 的 新 指标 被 纳入 评估 体系 ,包括 过 去 常常 被 认为 是 不 可 能 获取 的 社交 网 络 
数据 。 

银行 ,证券 和 保险 是 金融 类 企业 的 三 个 重要 部 分 。 国 内 不 少 银行 已 经 开始 尝试 通过 大 
数据 来 驱动 业务 运营 。 例 如 民生 银行 ,其 80% 以 上 的 客户 是 小 微 企业 。 借 助 大 数据 平台 ， 
民生 银行 的 每 家 小 微 企业 客户 的 信息 都 能 够 实时 上 报 民生 的 “数据 加 工厂 ”, 并 生产 出 有 价 
值 的 信息 ,使 总 行 能 够 更 加 快速 、 准 确 地 获得 各 个 行业 的 市 场 需求 信息 ,从 而 快速 、 精 确 地 进 
行 战略 决策 和 市 场 规划 。 

基于 大 数据 平台 ,民生 银行 实现 了 内 部 管理 的 精细 化 ,“ 用 数据 说 话 、 靠 数据 决策 ”已 经 
成 为 民生 银行 的 一 种 管理 文化 。 依 据 大 数据 平台 和 专业 金融 技术 工具 ,民生 银行 目前 能 够 
准确 计算 出 每 位 客户 的 利润 贡献 度 , 从 而 真正 做 到 个 性 化 定价 和 个 性 化 服务 。 在 产品 定价 
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方面 ,以 往 银行 都 按照 批量 定价 模式 ,向 客户 销售 贷款 ; 而 个 性 化 定价 , 则 根据 客户 的 存款 、 
贷款 ,业务 经 营 情况 等 综合 指标 进行 科学 定价 ,不 仅 能 够 吸引 优质 客户 ,提高 客户 黏 性 ,降低 
客户 流失 率 ,也 能 够 提高 整体 收益 。 基 于 大 数据 平台 ,民生 银行 实现 了 从 “ 广 撤 网 ”到 “批量 
定向 开发 ”的 转变 。 除 了 民生 银行 ,光大 银行 建立 了 社交 网 络 信息 数据 库 , 招 商 银行 利用 大 
数据 发 展 小 微 贷款 ,中 信和 银行 信用 卡 中 心 使 用 大 数据 技术 实现 了 实时 营销 。 

在 证 券 行业 ,大 数据 主要 包含 几 个 方面 的 应 用 : 股价 预测 、 客 户 关系 管理 和 投资 景气 
指数 。 
现在 很 多 股权 的 交易 都 利用 大 数据 算法 进行 ,这 些 算法 现在 越 来 越 多 地 考虑 了 社交 媒 
体 和 网 站 新 闻 来 决定 在 未 来 几 秒 内 是 买 人 还 是 卖 出 。IBM 日 本 的 新 系统 仅 用 6 小 时 就 预 
测 出 分 析 师 需要 花费 数 日 才能 计算 出 的 预测 值 , 它 结合 其 他 相关 经 济 数据 的 历史 数据 分 析 
与 股价 的 关系 ,从 而 得 出 预测 结果 。 

对 客户 关系 的 管理 包括 两 个 方面 ,对 客户 进行 细 分 和 客户 流失 的 预测 。 通 过 对 客户 的 
账户 状态 进行 分 析 , 对 客户 进行 聚 类 和 细 分 ,从 而 发 现 客户 交易 , 找 出 最 有 价值 和 熏 利 潜力 
的 客户 群 ,为 他 们 提供 个 性 化 服务 。 证 券 公司 通过 对 客户 的 历史 交易 行为 和 流失 情况 进行 
分 析 , 建 立 客户 流失 模型 ,从 而 预测 客户 流失 。 

在 保险 行业 ,大 数据 应 用 也 包括 三 个 方面 : 客户 细 分 及 精细 化 营销 、 欺 诈 行 为 分 析 和 精 
细 化 运营 。 例 如 ,友邦 保险 使 用 了 大 数据 魔 镜 软件 ,开发 出 客户 挖掘 、 精 准 投放 、 二 次 开发 、 
战略 指导 、 全 民 分 析 等 多 种 智能 分 析 模 型 ,为 管理 层 提供 最 直接 的 数据 依据 ,之 前 每 个 保险 
业务 员 从 200 个 电话 中 ,可 能 才能 挖掘 出 两 三 个 意向 客户 ,而 精准 的 投放 使 得 平均 拨打 一 个 
电话 就 可 以 得 到 一 个 客户 。 


2.3.5 医疗 健康 业 


人 体 是 十 分 复杂 的 系统 。 传 统 医 学 尤其 是 西医 ,注重 了 解 人 体 的 内 部 构成 ,研究 疾病 成 
因 并 施 以 治疗 。 而 在 海量 数据 的 帮助 下 ,相关 关系 的 挖掘 变 得 更 加 简单 ,快捷 、 准 确 , 在 采集 
海量 数据 的 情形 下 ,医生 甚至 可 以 直接 依据 相关 关系 进行 疾病 的 预 判 和 诊疗 。 

在 IBM ,安大略 理工 大 学 和 一 些 医疗 的 合作 项 目 中 ,心率 .呼吸 ,体温 .血压 和 血 氧 含量 
等 16 组 数据 被 用 于 检查 早产 儿 的 身体 状况 ,这 些 数 据 的 采集 频 度 达到 了 每 秒 1260 次 之 多 ， 
在 这 个 系统 的 帮助 下 ,医生 可 以 通过 早产 儿 的 身体 细微 变化 预 判 他 们 可 能 出 现 的 感染 症状 ， 
将 诊断 预防 提前 24 小 时 。 

而 与 此 同时 ,IBM 也 和 其 他 机 构 就 大 数据 应 用 开展 了 多 项 合作 。 在 与 美国 加 州 大 学 洛 
杉 矶 分 校 里 根 医 学 中 心 的 医生 们 就 创伤 性 脑 损 伤 治疗 的 合作 中 ,IBM 的 科学 家 通过 分 析 从 
患者 身上 获得 的 巨大 数据 流 ,预测 出 现 可 能 导致 认 知 能 力 损害 至 死亡 的 脑 肿 胀 病情 的 可 能 
性 。 通 过 跟踪 实时 采集 到 的 患者 呼吸 率 数据 和 心率 模式 ,医生 可 以 利用 IBM 开发 的 大 数据 
软件 识别 并 预测 患者 未 来 数 小 时 的 各 种 生理 迹象 。 

IBM 大 数据 项 目 负责 人 NaguiHalim 说 :“ 我 可 以 将 治疗 脑 损伤 的 大 数据 技术 与 一 本 
书 的 写作 做 一 个 生动 的 比较 。 计 算 机 科学 家 通常 会 在 数据 被 编译 后 才 对 其 进行 分 析 一 一 就 
像 扫 描 已 完成 的 一 本 或 者 一 百 本 书 的 关键 字 一 样 。 有 了 目前 的 技术 ,我 们 可 以 一 边 打字 ,一 
边 分 析 。”Halim 还 说 ,未 来 科学 家 可 以 通过 研究 病人 的 病历 ,将 病人 的 健康 形态 拼 在 一 起 来 
预测 病人 未 来 的 状况 一 一 就 像 可 以 通过 了 解 一 个 作者 如 何在 其 以 往 著作 中 塑造 任务 和 故事 
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情节 ,从 而 在 其 未 成 书 时 预测 书 的 内 容 。 得 克 萨 斯 州 的 脑 损伤 专家 BrentMasel 医生 表示 : 
“这 并 不 能 彻底 治愈 脑 损伤 ,但 是 它 在 脑 损 伤 恢复 上 却 起 到 了 非常 了 不 起 的 作用 。 这 使 我 们 
的 治疗 更 为 精确 ,意义 非凡 。” 

哈佛 医学 院 布 赖 海 姆 女子 医院 的 医学 研究 人 员 也 在 使 用 大 数据 技术 来 研究 开 给 1000 
万 患者 处 方药 的 效果 。 研 究 人 员 正 在 创建 全 新 的 研究 方式 来 分 析 海 量 数 据 , 用 以 辨别 数 以 
百 万 计 病 患者 的 用 药 风险 。 

对 数据 分 析 能 力 的 增强 也 使 得 更 精细 的 诊断 分 析 成 为 可 能 ,在 苹果 公司 前 总 裁 史 蒂 
夫 。 乔布斯 的 癌症 治疗 过 程 中 ,他 支付 几 十 万 美元 的 费用 完成 了 自身 所 有 DNA 序列 和 肿 
瘤 序 列 的 排序 ,以 便 医 生 们 能 够 基于 他 的 个 体 基因 组 成 给 出 用 药 建议 。 

谷歌 的 FluTrend 可 以 利用 搜索 关键 词 和 大 数据 技术 成 功 预测 流感 的 散布 趋势 。 在 流 
感 爆发 前 ,人 们 用 谷歌 搜索 流感 的 相关 资讯 或 措施 的 比例 将 会 增加 ,谷歌 通过 对 无 数 流感 关 
键 词 进 行 分 析 , 可 以 准确 快速 地 预测 流感 将 在 哪里 出 现 , 以 及 流感 的 散布 范围 。 这 一 项 目的 
成 功 也 刮 起 了 大 数据 变革 公共 卫生 的 浪潮 。 目 前 ,谷歌 又 暑 化 了 一 个 医疗 健康 项 目 ,名 为 
Baseline, 它 主要 用 大 数据 来 预防 癌症 。 

百度 公司 也 在 疾病 预测 方面 做 了 一 些 工 作 。2014 年 7 月 ,在 百度 推出 世界 杯 预测 之 
后 ,又 上 线 了 一 个 最 新 服务 : 疾病 预测 。 它 能 为 用 户 提 供 流 感 \ 肝 炎 、 肺 结核 和 性 病 4 种 疾 
病 的 趋势 预测 ,并 可 根据 过 去 30 天 的 资料 ,对 未 来 7 天 疾病 变化 进行 预测 。 目 前 该 服务 已 
经 涵盖 了 中 国 331 个 城市 ,2870 个 区 县 ,并 且 某 些 城市 已 经 细 化 到 以 商 圈 为 目标 单位 ,未 来 
甚至 可 以 细 化 到 个 人 的 粒度 。 

对 于 目前 正在 爆发 的 埃 博 拉 病 毒 ,也 可 以 通过 大 数据 技术 来 预防 疾病 的 传播 ,对 疫情 进 
行 更 好 的 控制 ,做 好 民众 的 救助 工作 。 首 先 ,西非 等 地 的 跨国 电信 业者 与 国际 卫生 组 织 合 
作 , 提 供 当 地 居民 行为 通信 资料 ,通过 分 析 绘 制 当 地 居民 聚落 位 置 和 人 口 移动 地 图 ,来 预测 
病毒 散布 的 位 置 。 其 次 ,非洲 政府 可 以 根据 用 户 的 手机 定位 ,分 析出 当地 居住 区 位 置 的 移动 
轨迹 ,规划 医疗 救助 站 的 位 置 ,从 而 安排 最 佳 的 救助 路 线 , 使 居民 远离 疫情 较为 严重 的 区 域 。 

除了 在 疾病 预测 方面 ,利用 大 数据 的 计算 和 分 析 能 力 , 能 够 让 我 们 在 几 分 钟 内 解码 整个 
DNA ,制定 出 最 新 的 治疗 方案 。 大 数据 技术 目前 已 经 在 医院 应 用 监视 早产 婴儿 和 患 病 婴儿 
的 情况 ,通过 记录 和 分 析 婴 儿 的 心跳 ,医生 针对 婴儿 的 身体 可 能 会 出 现 的 不 适 症 状 做 出 预 
测 , 这 样 可 以 帮助 医生 更 好 地 救助 婴儿 。 

大 数据 已 经 在 医疗 和 健康 领域 取得 了 一 定 的 成 果 , 将 疾病 防治 关口 前 移 , 可 以 大 大 节省 
医疗 资源 的 消耗 。 有 效 的 数据 分 析 也 可 以 提前 对 民众 进行 医疗 健康 知识 的 普及 教育 ,从 而 
较 好 地 预防 疾病 的 发 生 。 


2.3.6 中国 制 造 2025 


制造 业 是 国民 经 济 的 主体 ,是 立国 之 本 、 兴 国之 器 ,强国 之 基 。18 世纪 中 叶 开 启 工 业 文 
明 以 来 ,世界 强国 的 兴衰 史 和 中 华 民族 的 奋斗 史 一 再 证 明 , 没 有 强大 的 制造 业 , 就 没有 国家 
和 民族 的 强盛 。 打 造 具有 国际 竞争 力 的 制造 业 , 是 我 国 提升 综合 国力 、 保 障 国家 安全 建设 
世界 强国 的 必由之路 。 

新 中 国 成 立 尤 其 是 改革 开放 以 来 ,我 国 制造 业 持 续 快速 发 展 ,建成 了 门类 齐全 、 独 立 完 
整 的 产业 体系 ,有 力 推 动工 业 化 和 现代 化 进程 ,显著 增强 综合 国力 ,支撑 我 世界 大 国 地 位 。 
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然而 ,与 世界 先进 水 平 相 比 ,我 国 制造 业 仍然 大 而 不 强 , 在 自主 创新 能 力 、 资 源 利 用 效率 、 产 

业 结 构 水 平 、 信 息 化 程度 .质量 效益 等 方面 差距 明显 ,转型 升级 和 路 越发 展 的 任务 紧迫 而 
艰巨 。 
当前 ,新 一 轮 科技 革命 和 产业 变革 与 我 国 加 快 转变 经 济 发 展 方式 形成 历史 性 交汇 ,国际 
产业 分 工 格局 正在 重 塑 。 必 须 紧 紧 抓 住 这 一 重大 历史 机 遇 ,按照 * 四 个 全 面 "战略 布局 要 求 ， 
实施 制造 强国 战略 ,加强 统筹 规划 和 前 瞻 部 署 ,力争 通过 三 十 年 的 努力 ,到 新 中 国 成 立 一 百 
年 时 ,把 我 国 建设 成 为 引领 世界 制造 业 发 展 的 制造 强国 ,为 实现 中 华 民 族 伟大 复兴 的 中 国 梦 
打下 坚实 基础 。 

加 快 推动 新 一 代 信息 技术 与 制造 技术 融合 发 展 , 把 智能 制造 作为 两 化 深度 融合 的 主攻 
方向 ; 着 力 发 展 智能 装备 和 智能 产品 ,推进 生产 过 程 智 能 化 ,培育 新 型 生产 方式 ,全 面 提升 
企业 研发 .生产 ,管理 和 服务 的 智能 化 水 平 。 

研究 制定 智能 制造 发 展 战略 。 编 制 智能 制造 发 展 规 划 , 明 确 发 展 目标 、 重 点 任务 和 重大 
布局 。 加 快 制定 智能 制造 技术 标准 ,建立 完善 智能 制造 和 两 化 融合 管理 标准 体系 。 强 化 应 
用 牵引 ,建立 智能 制造 产业 联盟 ,协同 推动 智能 装备 和 产品 研发 .系统 集成 创新 与 产业 化 。 
促进 工业 互联 网 ` 云 计算 ,大 数据 在 企业 研发 设计 .生产 制造 、 经 营 管理 .销售 服务 等 全 流程 
和 全 产业 链 的 综合 集成 应 用 。 加 强 智 能 制造 工业 控制 系统 网 络 安 全 保障 能 力 建设 ,健全 综 
合 保 障 体系 。 

加 快 发 展 智能 制造 装备 和 产品 。 组 织 研 发 具有 深度 感知 、 智 慧 决 策 、 自 动 执 行 功 能 的 高 
档 数控 机 床 、 工 业 机 器 人 、 增 材 制造 装备 等 智能 制造 装备 以 及 智能 化 生产 线 , 突 破 新 型 传 感 
器 ,智能 测量 仪表 、 工 业 控制 系统 、 伺 服 电 机 及 驱动 器 和 减速 器 等 智能 核心 装置 ,推进 工程 化 
和 产业 化 。 加 快 机 械 、 航 空 .船舶 .汽车 、 轻 工 、 纺 织 、 食 品 、 电 子 等 行业 生产 设备 的 智能 化 改 
造 ,提高 精准 制造 ,敏捷 制造 能 力 。 统 筹 布局 和 推动 智能 交通 工具 、 智 能 工程 机 械 、 服 务 机 器 
人 、 智 能 家 电 、 智 能 照明 电器 .可 穿戴 设备 等 产品 研发 和 产业 化 。 

推进 制造 过 程 智能 化 。 在 重点 领域 试点 建设 智能 工厂 /数字 化 车 间 , 加 快 人 机 智能 交 
互 . 工 业 机 器 人 、 智 能 物流 管理 \ 增 材 制造 等 技术 和 装备 在 生产 过 程 中 的 应 用 ,促进 制造 工艺 
的 仿真 优化 ,数字 化 控制 状态 信息 实时 监测 和 自 适 应 控制 。 加 快 产品 全 生命 周期 管理 、 客 
户 关系 管理 ,供应 链 管理 系统 的 推广 应 用 ,促进 集团 管控 \、 设 计 与 制造 、 产 供销 一 体 、 业 务 和 
财务 衔接 等 关键 环节 集成 ,实现 智能 管控 。 加 快 民用 爆炸 物品 、 危 险 化 学 品 、 食 品 、 印 染 、 稀 
土 、 农 药 等 重点 行业 智能 检测 监管 体系 建设 ,提高 智能 化 水 平 。 

深化 互联 网 在 制造 领域 的 应 用 。 制 定 互联 网 与 制造 业 融 合 发 展 的 路 线 图 ,明确 发 展 方 
向 .目标 和 路 径 。 发 展 基于 互联 网 的 个 性 化 定制 、 众 包 设计 、` 云 制造 等 新 型 制造 模式 ,推动 形 
成 基于 消费 需求 动态 感知 的 研发 .制造 和 产业 组 织 方 式 。 建 立 优势 互补 、 合 作 共 赢 的 开放 型 
产业 生态 体系 。 加 快 开展 物 联 网 技术 研发 和 应 用 示范 ,培育 智能 监测 .远程 诊断 管理 、 全 产 
业 链 追溯 等 工业 互联 网 新 应 用 。 实 施工 业 云 及 工业 大 数据 创新 应 用 试点 ,建设 一 批 高 质量 
的 工业 云 服务 和 工业 大 数据 平台 ,推动 软件 与 服务 .设计 与 制造 资源 .关键 技术 与 标准 的 开 
放 共 享 。 

加 强 互联 网 基础 设施 建设 。 加 强 工 业 互联 网 基础 设施 建设 规划 与 布局 ,建设 低 时 延 、 高 
可 靠 、 广 覆盖 的 工业 互联 网 。 加 快 制造 业 集 聚 区 光纤 网 移动 通信 网 和 无 线 局 域 网 的 部 署 和 
建设 ,实现 信息 网 络 宽带 升级 ,提高 企业 宽带 接 入 能 力 。 针 对 信息 物理 系统 网 络 研 发 及 应 用 
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需求 ,组 织 开发 智能 控制 系统 .工业 应 用 软件 .故障 诊断 软件 和 相关 工具 、 传 感 和 通信 系统 协 
议 , 实 现 人 、 设 备 与 产品 的 实时 连通 、 精 确 识别 ` 有 效 交 互 与 智能 控制 。 

福特 公司 内 部 每 一 个 职能 部 门 都 会 配备 专门 的 数据 分 析 小 组 ,同时 还 在 硅谷 设立 了 一 
个 专门 依据 数据 进行 科技 创新 的 实验 室 。 这 个 实验 室 收集 大 约 四 百 万 辆 装 有 车 载 传 感 设 备 
的 汽车 数据 ,通过 对 数据 进行 分 析 , 工 程 师 可 以 了 解 司机 在 驾驶 汽车 时 的 感受 、 外 部 的 环境 
变化 以 及 汽车 环境 的 相应 表现 ,从 而 改善 车 辆 的 操作 性 ,提高 能 源 的 利用 效率 和 车 辆 的 排 气 
质量 ,同时 ,还 针对 车 内 噪声 的 问题 改变 了 扬声器 的 位 置 , 从 而 最 大 程度 减少 了 车 内 噪声 。 
在 2014 年 举行 的 北美 国际 车 展 中 ,福特 重新 设计 了 F-150 皮卡 车 ,使 用 轻 量 铝 代 替 了 原来 
的 钢材 , 有效 减 少 了 燃料 消耗 。 负 责 F-150 皮卡 车 设计 的 数据 分 析 师 Michael Cavaretta 
说 ,在 减少 燃料 消耗 的 过 程 中 ,技术 团队 选择 了 多 项 备 选 方案 ,并 估算 了 这 些 技术 的 成 本 和 
利润 ,以 及 实现 技术 需要 消耗 的 时 间 的 基础 上 进行 了 优化 分 析 和 抉择 ,而 轻 量 铝 就 是 团队 在 
进行 了 数据 分 析 和 综合 评估 之 后 的 选择 。 

福特 研究 和 创新 中 心 一 直 和 希望 能 够 通过 使 用 先进 的 数学 模型 帮助 福特 汽车 降低 对 环境 
的 影响 ,从 而 提高 公司 的 影响 力 。 针 对 燃油 经 济 性 问题 ,这 个 由 科学 家 、 数 学 家 和 建 模 专家 
所 组 成 的 研究 团队 开发 出 了 基于 统计 数据 的 研发 模型 ,对 未 来 50 年 内 全 球 汽 车 所 产生 的 二 
氧化 碳 排放 量 进行 了 预测 ,进而 帮助 福特 公司 制定 较 高 的 燃油 经 济 性 目标 并 提醒 公司 高 层 
保持 对 环境 的 重视 。 针 对 汽车 能 源 动力 选择 问题 ,福特 数据 团队 利用 数学 建 模 方法 ,证 明 某 
一 种 替代 能 源 动 力 要 取代 其 他 多 有 动力 的 可 能 性 很 小 ,由 此 帮助 福特 开发 出 包括 EcoBoost 
发 动机 ,混合 动力 、 插 电 式 混合 动力 、 灵 活 人 燃料 、 纯 电动 .生物 燃油 ,天然气 和 液化 天 然 气 在 内 
的 一 系列 动力 技术 。 同 时 福特 团队 还 开发 了 具有 特殊 功能 的 分 析 工 具 , 如 福特 车 辆 采购 计 
划 工 具 , 该 分 析 系 统 能 根据 大 宗 客 户 的 需求 帮助 他 们 进行 采购 分 析 , 同 时 也 帮助 他 们 降低 成 
本 和 保护 环境 。 福 特 认为 分 析 模 型 和 大 数据 将 是 增强 自身 创新 能 力 、 竞 争 能 力 和 工作 效率 
的 下 一 个 突破 点 ,在 越 来 越 多 新 的 技术 方法 不 断 涌现 的 今天 ,分 析 模 型 与 大 数据 将 为 消费 者 
和 企业 自身 创造 更 多 的 价值 。 


2.3.7 智能 交通 领域 


随 着 大 数据 时 代 的 到 来 ,智能 交通 迎 来 重大 变化 ,智能 交通 产业 发 展 也 将 迎 来 新 的 机 
遇 。 交 通 拥堵 、 交 通 污染 日 益 严重 ,交通 事故 频繁 发 生 , 这 些 都 是 各 大 城市 或 待 解决 的 问题 ， 
智能 交通 成 为 改善 城市 交通 的 关键 所 在 。 及 时 、 准 确 地 获取 交通 数据 并 构建 交通 数据 处 理 
模型 是 建设 智能 交通 的 前 提 , 而 这 一 难题 可 以 通过 大 数据 技术 得 到 解决 。 

法 国 里 昂 市 与 TBM 的 研究 者 合作 开发 出 能 够 缓解 道路 拥堵 的 系统 方案 。IBM 为 里 昂 
开发 的 系统 名 为 Decision Support System Optimizer( 决 策 支 持 系统 优化 器 ) ,可 以 基于 实时 
的 交通 情况 报告 来 侦 测 和 预测 交通 拥堵 。 当 交管 人 员 发 现 某 地 即将 发 生 交通 拥堵 时 ,可 以 
及 时 调整 信号 灯 让 车 流 以 最 高 效率 运行 。 这 个 系统 对 于 突 发 事件 也 很 有 用 ,例如 帮助 救护 
车 尽快 到 达 医 院 。 而 且 随 着 运行 时 间 的 积累 ,这 套 系统 还 能 够 “学 习 ” 过 去 的 成 功 处 置 方案 ， 
并 运用 到 未 来 预测 中 。 

SpotHero 是 预订 停车 位 的 一 个 移动 应 用 , 它 的 网 站 和 移动 应 用 可 以 较 好 地 解决 司机 找 
不 到 停车 位 的 问题 。SpotHero 能 够 实时 跟踪 停车 位 数据 变化 ,打开 SpotHero, 将 会 显示 附 
近 可 用 的 停车 位 的 公交 车 和 价格 .同时 提供 导航 服务 ,并 且 可 以 使 用 预付 费 来 占领 未 被 使 用 
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的 停车 位 。 目 前 ,已 经 能 够 实时 监控 包括 华盛顿 纽约. 芝加哥. 巴尔的摩 .波士顿 ` 密 尔 沃 基 
和 纽 瓦 克 7 个 城市 的 停车 位 。 

大 数据 在 智能 交通 应 用 方面 的 优势 体现 在 : 大 数据 技术 的 海量 数据 存储 和 高 效 需求 分 
析 能 力 ,能 够 实现 交通 管理 系统 跨 区 域 . 跨 部 门 的 集成 和 组 合 ,更 有 效 地 配置 交通 资源 。 大 
数据 的 实时 性 ,使 处 于 静态 闲置 的 数据 被 处 理 和 需要 利用 时 , 即 可 被 智能 化 利用 ,使 交通 运 
行 得 更 加 合理 ,从 而 提升 交通 运行 效率 和 服务 的 水 平 。 其 次 ,大 数据 技术 具有 较 高 的 预测 能 
力 , 可 降低 误 报 和 漏 报 的 概率 ,随时 针对 交通 的 动态 性 给 予 实时 监控 。 基 于 对 大 数据 的 预测 
性 分 析 , 通 过 梳理 影响 安全 运行 的 各 种 原因 ,发 现 道路 运行 安全 管理 的 内 在 规律 ,将 为 交通 
管理 决策 .规划 运营、 服务, 以 及 主动 安全 防范 带 来 更 加 有 效 的 支持 ,以 提高 交通 安全 的 水 
平 ,在 一 定 程度 上 避免 交通 事故 。 此 外 ,大 数据 技术 在 减轻 道路 交通 堵塞 、 降 低 汽车 运输 对 
环境 的 影响 等 方面 有 重要 的 作用 。 通 过 建立 区 域 交 通 排 放 的 监测 及 预测 模型 ,共享 交通 运 
行 与 环境 数据 ,建立 交通 运行 与 环境 数据 共享 实验 系统 ,大 数据 技术 可 有 效 分 析 交 通 对 环境 
的 影响 。 同 时 ,通过 分 析 历 史 数据 ,大 数据 技术 能 提供 降低 交通 延误 和 减少 排放 的 交通 信和 号 
智能 化 控制 的 决策 依据 ,建立 低 排放 交通 信号 控制 原型 系统 与 车 辆 排放 环境 影响 仿真 系统 。 

面 对 海 量 的 交通 信息 ,交通 大 数据 的 开发 应 用 需求 日 益 突 出 ,交通 大 数据 时 代 的 来 临 是 
智能 交通 发 展 的 必然 趋势 ,这 将 为 智能 交通 提供 更 多 的 发 展 机 遇 和 空间 。 
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一 个 完整 的 大 数据 平台 ,其 架构 体系 一 般 由 如 图 3-1 所 示 的 几 部 分 组 成 。 
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图 3-1 大 数据 平台 架构 体系 


其 中 ,大 数据 基础 设施 是 大 数据 存储 、 计 算 、 展 示 等 的 基础 支撑 设施 ; 数据 采集 是 把 数 
据 从 数据 源 采集 导入 到 数据 平台 中 的 相关 接口 及 技术 ; 数据 存储 则 是 将 数据 采用 分 布 式 文 
件 、 分 布 式 数据 库 的 方式 存储 在 大 规模 的 节点 中 ; 数据 处 理 是 对 所 存储 的 数据 进行 查询 , 统 
计 、 分 析 ,预测 .挖掘 ,商业 智能 处 理 、 深 度 学 习 等 相关 处 理 ; 数据 交互 展示 则 是 将 分 析 处 理 
完 的 数据 以 最 佳 的 交互 方式 呈现 给 数据 使 用 者 和 消费 者 ; 大 数据 应 用 是 把 数据 及 处 理 结 果 
应 用 到 各 行 各 业 中 去 ,比如 医疗 、 环 保 、 社 交 金 融 、 中 国 制造 等 行业 ; 安全 管理 是 对 数据 的 
全 方位 安全 管控 ; 运营 管理 则 是 保障 整个 数据 处 理 架 构 的 稳定 高 效 运营 。 

下 面 的 章节 中 将 逐一 详细 介绍 相关 的 组 成 部 分 。 


3.1 大 数据 基础 设施 


大 数据 基础 设施 为 大 数据 平台 的 底层 提供 必要 的 基础 设施 支持 ,比如 基础 的 计算 、 存 
储 、 网 络 设备 , 云 数据 中 心 , 云 计算 平台 等 。 基 础 设施 与 大 数据 处 理 的 关系 ,就 像 我 们 的 身体 
为 大 脑 思 考 提供 能 量 一 样 。 强 健 的 体 饮 可 以 为 大 脑 提供 充足 的 能 量 支 持 , 而 完善 的 基础 设 
施 可 以 支持 强大 的 数据 处 理 。 

大 数据 处 理 需 要 拥有 大 规模 物理 资源 的 云 数据 中 心 和 具备 高 效 的 调度 管理 功能 的 云 计 
算 平 台 的 支撑 。 云 计算 管理 平台 能 为 大 型 数据 中 心 及 政府 企业 提供 灵活 高 效 的 部 署 `. 运 行 
和 管理 环境 ,通过 虚拟 化 技术 支持 异 构 的 底层 硬件 及 操作 系统 ,为 应 用 提供 安全 、 高 性 能 、 高 
可 扩展 、 高 可 靠 和 高 伸缩 性 的 云 资源 管理 解决 方案 ,降低 应 用 系统 开发 部署、 运行 和 维护 的 
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成 本 ,提高 资源 使 用 效率 。 


3.1.1 虚拟 化 


虚拟 化 是 在 1960 年 为 了 描述 虚拟 机 (实验 性 的 IBM M44/44X 系统 ) 这 个 概念 时 被 
第 一 次 提出 的 。 虚 拟 化 的 概念 也 比较 好 理解 ,在 电影 (黑客 帝国 ) 中 , 男 主角 尼 奥 (Neo) 生 
活 在 由 一 台 超 级 计算 机 母体 (Matrix) 所 创造 出 来 的 模拟 世界 中 ,在 里 面 上 班 工 作 ,后 来 逐 
步 醒 悟 到 他 只 是 活 在 机 器 所 设 定 的 一 个 虚拟 世界 里 ,最 终 率领 人 类 摆脱 机 器 的 控制 。 这 
里 面 的 虚拟 世界 就 是 对 现实 世界 的 一 种 模拟 ,在 里 面 所 有 的 体验 都 跟 在 真实 世界 中 的 
一 样 。 

按 虚拟 化 技术 的 应 用 特点 ,虚拟 化 技术 主要 分 为 以 下 几 类 : 服务 器 虚拟 化 .存储 虚拟 
化 、 网 络 虚拟 化 及 桌面 虚拟 化 。 将 虚拟 化 技术 应 用 于 数据 中 心 领 域 ,能 够 解决 阻碍 数据 中 心 
发 展 的 诸多 问题 ,提高 物理 设备 的 利用 率 , 有 效 降 低 数据 中 心 运 维 成 本 ,降低 能 耗 以 及 保证 
数据 中 心服 务 的 可 靠 性 、 连 续 性 。 

对 虚拟 机 的 构建 和 管理 被 称 为 平台 虚拟 化 ,现在 也 称 为 服务 器 虚拟 化 。 平 台 虚 拟 化 , 跟 
上 面 的 虚拟 世界 类 似 , 就 是 在 一 个 给 定 硬件 平台 的 服务 器 (宿主 机 ) 上 创造 一 个 模拟 的 计算 
机 环境 (虚拟 机 ), 并 提供 给 客户 机 。 许 多 宿主 机 允许 运行 真实 的 操作 系统 ,客户 机 就 好 像 直 
接 运行 在 宿主 机 的 计算 机 硬件 上 ,而 实际 上 它 是 运行 在 虚拟 机 上 。 一 般 虚 拟 机 对 硬件 资源 
(如 网 络 、 显 示 器 ,键盘 ,硬盘 ) 的 访问 被 统一 管理 在 一 个 比 处 理 器 和 系统 内 存 更 有 限制 性 的 
层次 上 。 客 户 软 件 经 常 被 限制 访问 计算 机 周边 设备 ,或 者 被 限制 在 较 低 的 设备 性 能 上 ,这 取 
决 于 宿主 机 硬件 访问 策略 设 定 。 

采用 虚拟 化 技术 有 几 个 方面 的 原因 。 一 方面 根据 摩尔 定律 和 CPU 生产 技术 的 迅猛 发 
展 ,当今 的 计算 机 性 能 越 来 越 强 大 ,配置 越 来 越 高 。 比 如 市 场 上 常见 的 一 款 智能 手机 往往 都 
是 4 核 甚 至 8 核 的 CPU, 其 计算 和 存储 能 力 远 超 一 台 最 早期 的 超级 计算 机 。 但 这 样 强大 的 
硬件 和 处 理 能 力 仍然 被 一 个 统一 的 操作 系统 管理 ,造成 资源 和 效率 的 浪费 。 为 了 发 挥 所 有 
的 CPU 和 硬件 资源 的 效率 ,可 以 把 每 一 个 运行 在 独立 的 服务 器 上 的 操作 系统 转移 到 虚拟 
机 中 。 大 型 的 服务 器 可 以 “寄宿 ”许多 这 样 的 “客户 ”虚拟 机 。 这 就 是 物理 到 虚拟 (Physical- 
to-Virtual,P2V) 的 转换 。 

另 一 方面 虚拟 机 相 比 于 物理 机 器 ,具备 很 多 的 优势 和 灵活 性 。 比 如 虚拟 机 可 以 被 更 容 
易 地 从 外 部 被 控制 和 检查 ,并且 可 以 更 灵活 地 配置 (CPU 核 数 . 内 存 、 硬 盘 、 网 络 等 ) 和 升级 
维护 。 

另外 ,创建 一 个 新 的 虚拟 机 不 需要 预先 购买 硬件 。 同 时 ,一 个 新 的 虚拟 机 可 以 容易 地 从 
一 台 计 算 机 转移 到 另 一 台 上 。 一 个 销售 员 可 以 很 方便 地 把 一 个 包含 试用 版 软件 的 虚拟 机 复 
制 到 他 的 笔记 本 中 ,再 去 拜访 他 的 客户 时 不 用 更 换 计算 机 。 类 似 地 ,虚拟 机 中 的 故障 不 会 对 
宿主 机 产生 损害 ,所 以 不 会 令 笔记 本 上 的 操作 系统 死机 。 

虚拟 机 由 于 可 以 很 容易 地 迁移 ,所 以 也 常 被 用 于 远 距离 灾难 恢复 方案 。 


3.1.2 云 计算 


云 计算 是 继 20 世纪 90 年 代 大 型 计算 机 到 客户 端 -服务 器 的 大 转变 之 后 的 又 一 种 巨变 。 
由 于 政府 和 企业 用 户 对 于 大 型 计算 资源 的 需求 在 不 断 上 升 ,而 他 们 自己 独立 购买 ,建设 和 运 
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营 大 规模 的 服务 集群 的 成 本 又 非常 高 昂 . 因 而 诞生 了 大 型 的 第 三 方 云 数 据 中 心服 务 商 ,为 用 
户 提供 云 计算 服务 。 云 计算 基于 的 经 济 模式 是 规模 经 济 效应 ,也 就 是 说 很 多 的 中 小 用 户 在 
云 资源 平台 上 共享 资源 ,这 样 云 服务 商 可 以 综合 一 利 。 这 种 商业 模式 类 似 于 现今 的 电网 和 
自来水 管 网 。 在 电网 系统 中 ,有 大 型 的 发 电厂 ,通过 输 变 电路 把 电 接 入 企业 和 千家 万 户 , 我 
们 只 需 按 用 电量 来 支付 电费 。 在 自来水 供应 中 类 似 地 有 大 型 自来水 厂 ,通过 输送 管 网 ,传送 
到 用 户 家 中 ,我 们 打开 水 龙头 就 能 用 水 ,按照 用 水 量 支付 水 费 。 

云 计算 的 模式 也 类 似 ,用 户 接 入 网 络 , 就 能 使 用 大 型 云 数据 中 心里 的 存储 和 计算 资源 ， 
而 不 再 需要 了 解 “ 云 "中 基础 设施 的 细节 ,不 必 具 有 相应 的 专业 云 计算 知识 ,也 无 须 直接 进行 
控制 。 云 计算 描述 了 一 种 基于 互联 网 的 新 的 IT 服务 增加 、 使 用 和 交付 模式 ,通常 涉及 通过 
互联 网 来 提供 动态 \ 易 扩展 而 且 经 常 是 虚拟 化 的 服务 。 

随 着 信息 和 通信 技术 的 快速 发 展 ,如 图 3-2 所 示 ,计算 模式 经 历 了 从 最 初 把 任务 集中 交 
付 给 大 型 处 理 机 模式 ,到 后 来 发 展 为 基于 网 络 的 分 布 式 任务 处 理 模 式 , 再 到 最 新 的 按 需 处 理 
的 云 计 算 模 式 。 最 初 的 单个 处 理 机 模式 处 理 能 力 有 限 ,并 且 请 求 需要 等 待 ,效率 低下 。 后 
来 , 随 着 网 络 技 术 的 不 断 发 展 ,按照 高 负载 配置 的 服务 器 集群 ,在 遇 到 低 负载 的 时 候 ,会 有 资 
源 的 浪费 和 闲置 ,导致 用 户 的 运行 维护 成 本 提高 。 而 云 计 算 把 网 络 上 的 服务 资源 虚拟 化 , 整 
个 服务 资源 的 调度 .管理 .维护 等 工作 由 专门 的 人 员 负 责 , 用 户 不 必 关 心 “ 云 ?内 部 的 实现 , 因 
此 云 计算 实质 上 是 给 用 户 提供 像 传 统 的 电力 、 水 、 煤 气 一样 的 按 需 计算 服务 , 它 是 一 种 新 的 
有 效 的 计算 使 用 范式 。 并 且 ., 云 计算 是 分 布 式 计算 、 效 用 计算 、 虚 拟 化 技术 、Web 服务 、 网 格 
计算 等 技术 的 融合 和 发 展 , 其 目标 是 用 户 通过 网 络 能 够 在 任何 时 间 、 任 何 地 点 最 大 限度 地 使 
用 虚拟 资源 池 , 处 理 大 规模 计算 问题 。 目 前 ,在 学 术 界 和 工业 界 的 共同 推动 之 下 , 云 计算 及 
其 应 用 呈现 迅速 增长 的 趋势 ,各 大 云 计算 厂 商 如 Amazon、IBM、Google、Microsoft、Sun 等 
公司 都 推出 自己 研发 的 云 计 算 服 务 平台 。 而 学 术 界 也 源 于 云 计算 的 现实 背景 纷纷 对 模型 、 
应 用 成 本 ,仿真 ,性 能 优化 ,测试 等 诸多 问题 进行 了 深入 研究 ,提出 了 各 自 的 理论 方法 和 技 
术 成 果 , 极 大 地 推动 了 云 计算 继续 向 前 发 展 。 


外 - 


图 3-2 云 计算 模式 的 演化 





(b) (©) 


1. 云 计算 定 义 

云 计算 概念 最 早 是 由 Google 提出 的 ,一 方面 是 因为 当时 在 网 络 拓扑 图 中 用 云 来 代表 远 
程 的 大 型 网 络 , 另 一 方面 用 来 指 代 通过 网 络 应 用 模式 来 获取 服务 。 狭 义 云 计算 是 指 IT 基 
础 设施 的 交付 和 使 用 模式 , 指 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 的 资源 ; 广义 云 计 算 
是 指 服务 的 交付 和 使 用 模式 , 指 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 的 服务 。 这 种 服务 
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可 以 是 IT 和 软件 、 互 联网 相关 的 ,也 可 以 是 任意 其 他 的 服务 , 它 具 有 超大 规模 、 虚 拟 化 、 可 
靠 安全 等 独特 功效 。 

目前 ,不 同文 献 和 资料 对 云 计算 的 定义 有 不 同 的 表述 ,主要 有 以 下 几 种 代表 性 的 
定义 。 

定义 1 云 计算 是 一 种 能 够 在 短 时 间 内 迅速 按 需 提供 资源 的 服务 ,可 以 避免 资源 过 度 
和 过 低 使 用 。 

定义 2 云 计算 是 一 种 并 行 的 ,分布 式 的 系统 ,由 虚拟 化 的 计算 资源 构成 ,能 够 根据 服 
务 提供 者 和 用 户 事先 商定 好 的 服务 等 级 协议 动态 地 提供 服务 。 

定义 3 云 计算 是 一 种 可 以 调用 的 虚拟 化 的 资源 池 , 这 些 资源 池 可 以 根据 负载 动态 重 
新 配置 ,以 达到 最 优化 使 用 的 目的 。 用 户 和 服务 提供 商事 先 约定 服务 等 级 协议 ,用 户 以 用 时 
付费 模式 使 用 服务 。 

定义 4 云 计算 是 一 种 大 规模 分 布 式 的 计算 模式 ,由 规模 经 济 所 驱动 ,能 够 把 抽象 化 
的 .虚拟 化 的 ,动态 可 扩展 的 计算 、 存 储 , 平 台 及 服务 以 资源 池 的 方式 管理 ,并 通过 互联 网 按 
需 提 供给 用 户 。 

定义 1 强调 了 按 需 使 用 方式 ,定义 2 中 突出 了 用 户 和 服务 提供 商 双方 事先 商定 的 服务 
等 级 协议 。 这 两 个 定义 都 从 一 定 的 角度 给 出 定义 。 定 义 3 和 定义 4 综合 了 前 面 两 种 定义 的 
描述 ,更 好 地 揭示 了 云 计算 的 特点 和 本 质 。 

2. 云 计算 主要 特征 

云 计算 是 一 种 按 使 用 量 付费 的 模式 ,这 种 模式 提供 可 用 的 便捷 的 、 按 需 的 网 络 访问 , 进 
和 可 配置 的 计算 资源 共享 池 ( 资 源 包 括 网 络 ,服务 器 ,存储 ,应 用 软件 .服务 ) ,这 些 资源 能 够 
被 快速 提供 ,只 需要 投入 很 少 的 管理 工作 ,或 与 服务 供应 商 进行 很 少 的 交互 。 云 计算 有 以 下 
5 个 主要 特征 。 

(1) 按 需 自助 服务 。 消 费 者 可 以 单方 面 按 需 部 署 处 理 能 力 , 如 服务 器 时 间 和 网 络 存 储 ， 
而 不 需要 与 每 个 服务 供应 商 进行 人 工交 互 。 

(2) 通过 网 络 访问 。 可 以 通过 互联 网 获取 各 种 能 力 ,并 可 以 通过 标准 方式 访问 ,以 通过 
众多 瘦 客 户 端 或 宣 客户 端 推 广 使 用 (例如 移动 电话 、 笔 记 本 、PDA 等 )。 

(3) 与 地 点 无 关 的 资源 池 。 供 应 商 的 计算 资源 被 集中 ,以 便 以 多 用 户 租用 模式 服务 
所 有 客户 ,同时 不 同 的 物理 和 虚拟 资源 可 根据 客户 需求 动态 分 配 和 重新 分 配 。 客 户 一 般 
无 法 控制 或 知道 资源 的 确切 位 置 。 这 些 资 源 包括 存储 、 处 理 器 、 内 存 、 网 络 带宽 和 虚拟 
机 器 。 

(4) 快速 伸缩 性 。 可 以 迅速 ,弹性 地 提供 资源 ,能 快速 扩展 ,也 可 快速 释放 以 实现 快速 
缩小 。 对 客户 来 说 ,可 以 租用 的 资源 看 起 来 似乎 是 无 限 的 ,并 且 可 在 任何 时 间 购 买 任何 数量 

(5) 按 使 用 付费 。 能 力 的 收费 是 基于 计量 的 一 次 一 付 ,或 基于 广告 的 收费 模式 ,以 促进 
资源 的 优化 利用 。 比 如 计量 存储 ,带宽 和 计算 资源 的 消耗 , 按 月 根据 用 户 实际 使 用 收费 。 在 
一 个 组 织 内 的 云 可 以 在 部 门 之 间 计 算 费 用 ,但 不 一 定 使 用 真实 货 

云 计算 新 的 范式 的 特点 带 来 了 众多 的 优势 ,同时 引入 了 一 些 新 的 问题 吸 待 解决 。 这 些 
因素 制约 着 云 计算 技术 及 其 应 用 的 发 展 , 见 表 3-1。 
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表 3-1 云 计算 的 优势 和 对 应 问题 
云 计算 优势 问题 
安全 性 | 顷 短 单机 密集 数据 处 理 任务 时 间 , 把 处 理 任 | 用 户 关注 传输 到 云 计算 端的 敏感 处 更 数 据 是 
务 分 配 到 各 个 节点 计算 ,提高 了 效率 否 安全 
减少 用 户 购买 物理 硬件 设备 的 费用 ,资源 以 
可 靠 性 ”| 服务 的 方式 进行 租赁 ,降低 用 户 资金 投入 的 eg lg 
前 期 风险 ,促进 用 户 把 精力 投入 业务 中 二 3 加 
TS 
柯 拓 让 | 提供 专业 的 软件 管理 和 维护 服务 ,减少 了 得 ee 
通用 户 软件 平台 的 日 常 维护 管理 成 本 oid 加 
计算 环境 下 
用 户 可 以 根据 业务 需要 动态 地 按 需 请 求 云 | 去 计算 服务 提供 商 的 实际 扩展 能 力 有 限 , 需 
交互 性 “| 计算 服务 ,处理 高 峰 期 负载 并 在 非 高 峰 期 释 | 要 多 个 云 计 算 服务 商 间 的 交互 ,而 云 计算 服 
放 资 源 务 之 间 的 交互 性 较 差 








3. 云 计算 应 用 分 类 

云 计 算 的 类 型 从 不 同 的 角度 有 不 同 的 划分 ,本 节 在 横向 上 按 部 署 方式 ,在 纵向 上 按 云 计 
算 从 底层 到 高 层 提供 服务 的 方式 分 类 介绍 各 种 云 计算 ,结合 典型 的 云 计 算 服务 平台 ,由 此 在 
图 3-3 中 分 析 云 计算 框架 的 构成 ,讨论 各 层次 需要 构建 的 机 制 和 实现 方案 。 
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图 3-3 云 计算 框架 图 


从 云 计 算 部 署 的 角度 , 云 计算 分 为 私有 云 、 社 区 云 、 公 共 云 和 混合 云 。 私 有 云 被 一 个 
组 织 管理 操作 。 社 区 云 由 多 个 组 织 共同 管理 操作 ,具有 一 致 的 任务 调度 和 安全 策略 。 公 
共 云 由 一 个 组 织 管理 维护 ,提供 对 外 的 云 服 务 , 可 以 被 公众 所 拥有 。 混 合 云 是 以 上 两 种 
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或 两 种 以 上 云 的 组 合 。 从 云 计 算 服务 的 角度 , 云 计算 服务 类 型 可 以 分 为 基础 设施 即 服务 
(Infrastructure as a Service,1aaS) .平台 即 服务 (Platform as a Service, PaaS) 软件 即 服 务 
(Software as a Service,SaaS) 。 

(1) IaaS 在 服务 层次 上 是 底层 服务 ,接近 物理 硬件 资源 ,通过 虚拟 化 的 相关 技术 ,为 用 
户 提供 计算 、 存 储 、 网 络 以 及 其 他 资源 方面 的 服务 ,以 便 用 户 能 够 部 署 操作 系统 和 运行 软件 。 
这 一 层 典 型 的 服务 如 亚马逊 的 弹性 云 (Amazon,EC2)。EC2 与 Google 提供 的 云 计 算 服 务 
不 同 ,Google 只 为 互联 网 上 的 应 用 提供 云 计算 平台 ,开发 人 员 无 法 在 这 个 平台 上 工作 ,因此 
只 能 转 而 通过 开源 的 Hadoop 软件 支持 来 开发 云 计算 应 用 。 而 EC2 给 用 户 提供 一 个 虚拟 
的 环境 ,使 得 可 以 基于 虚拟 的 操作 系统 环境 运行 自身 的 应 用 程序 。 同 时 ,用 户 可 以 创建 亚 马 
逊 机 器 镜像 (AMDI) ,镜像 包括 库 文件 ,数据 和 环境 配置 ,通过 弹性 计算 云 的 网 络 界面 去 操作 
在 云 计算 平台 上 运行 的 各 个 实例 (Instance) ,同时 用 户 需 要 为 相应 的 简单 存储 服务 (S3) 和 
网 络 流 量 付费 。 

(2) PaaS 是 构建 在 基础 设施 即 服 务 之 上 的 服务 ,用 户 通 过 云 服 务 提供 的 软件 工具 和 开 
发 语言 ,部 署 自己 需要 的 软件 运行 环境 和 配置 。 用 户 不 必 控 制 底层 的 网 络 、 存 储 、 操 作 系 统 
等 技术 问题 ,底层 服务 对 用 户 是 透明 的 ,这 一 层 服 务 是 软件 的 开发 和 运行 环境 。 这 一 层 服务 
是 一 个 开发 .托管 网 络 应 用 程序 的 平台 ,代表 性 的 有 Google App Engine 和 Microsoft 
Azure。 使 用 Google App Engine, 用 户 将 不 再 需要 维护 服务 器 ,用 户 基于 Google 的 基础 设 
施 上 传 、 运 行 应 用 程序 软件 。 目 前 ,Google App Engine 用 户 使 用 一 定 的 资源 是 免费 的 ,如 
果 使 用 更 多 的 带宽 .存储 空间 等 需要 另外 收取 费用 。Google App Engine 提供 一 套 API 使 
用 Python 或 Java 来 方便 用 户 编写 可 扩展 的 应 用 程序 ,但 仅 限 Google App Engine 范围 的 
有 限 程序 ,现存 很 多 应 用 程序 还 不 能 很 方便 地 运行 在 Google App Engine 上 。Microsoft 
Azure 构建 在 Microsoft 数据 中 心 内 ,允许 用 户 应 用 程序 ,同时 提供 了 一 套 内 置 的 有 限 API， 
方便 开发 和 部 署 应 用 程序 。 此 平台 包含 在 线 服 务 Live Service、 关 系数 据 库 服务 SQL 
Services 各 式 应 用 程序 服务 器 服务 NET Services 等 。 

(3) SaaS 是 前 两 层 服务 所 开发 的 软件 应 用 ,不 同 用 户 以 简单 客户 端的 方式 调用 该 层 服 
务 , 例 如 以 浏览 器 的 方式 调用 服务 。 用 户 可 以 根据 自己 的 实际 需求 ,通过 网 络 向 提供 商定 制 
所 需 的 应 用 软件 服务 , 按 服务 多 少 和 时 间 长 短 支付 费用 。 最 早 提供 该 服务 模式 的 是 
Saleforce 公司 运行 的 客户 关系 管理 (CRM) 系统 , 它 是 在 该 公司 PaaS 层 force. com 平台 
上 开发 的 SaaS。Google 的 在 线 办 公 软 件 如 文档 、 表 格 、 幻 灯 片 处 理 也 采用 Saas 服务 模式 。 

云 计算 提供 的 不 同 层次 服务 使 开发 者 、 服 务 提供 商 、 系 统管 理 员 和 用 户 面 临 许多 挑战 。 
图 3-3 对 此 做 出 了 归纳 概述 。 底 层 的 物理 资源 经 过 虚拟 化 转变 为 多 个 虚拟 机 ,以 资源 池 多 
重 租赁 的 方式 提供 服务 ,提高 了 资源 的 效用 。 核 心中 间 件 起 到 任务 调度 .资源 和 安全 管理 、 
性 能 监控 \ 计 费 管理 等 作用 。 一 方面 , 云 计 算 服 务 涉及 大 量 的 调用 第 三 方 软件 及 框架 和 重要 
数据 处 理 的 操作 ,这 需要 有 一 套 完善 的 机 制 ,以 保证 云 计算 服务 安全 有 效 地 运行 ; 另 一 方 
面 ,虚拟 化 的 资源 池 所 在 的 数据 中 心 往往 电力 资源 耗费 巨大 ,解决 这 样 的 问题 需要 设计 有 效 
的 资源 调度 策略 和 算法 。 在 用 户 通过 代理 或 者 直接 调用 云 计算 服务 的 时 候 , 需 要 和 服务 提 
供 商 之 间 建 立 服 务 等 级 协议 (Service Level Agreement,SLA) ,那么 必然 需要 服务 性 能 监 
控 , 以 便 设计 出 比较 灵活 的 付费 方式 。 此 外 ,还 需要 设计 便捷 的 应 用 接口 .方便 服务 调用 。 
而 用 户 在 调用 中 选择 什么 样 的 云 计 算 服 务 .这 就 要 设计 合理 的 度量 标准 并 建立 一 个 全 球 云 
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计算 服务 市 场 以 供 选择 调用 。 
3.1.3 数据 中 心 


前 面 说 到 计算 机 的 发 展 经 历 了 几 个 阶段 ,从 早期 的 超级 计算 机 到 PC 时 代 , 再 到 互联 网 
dot-com 时 代 , 然 后 进入 了 现今 的 云 计 算 时 代 。 最 早期 的 计算 机 系统 操作 和 维护 都 复杂 , 需 
要 一 个 特殊 的 环境 来 操作 。 同 时 安全 非常 重要 ,因为 计算 机 非常 贵 ,并 且 常 常 被 用 于 军事 目 
的 。 因 此 除了 机 房 的 设计 和 装修 ,控制 机 房 的 访问 权限 也 都 考虑 在 列 。 随 着 微型 计算 机 的 
普及 ,在 20 世纪 90 年 代 一 些微 型 计算 机 (被 称 为 服务 器 ) 逐 步 在 一 些 公司 的 机 房 得 到 使 用 ， 
并 且 机 房 的 规模 逐步 扩大 。 

到 了 dot-com 时 代 , 数 据 中 心 在 全 球 取得 了 快速 的 发 展 。 很 多 的 互联 网 公司 需要 不 停 
地 增加 服务 器 ,并 具备 快速 的 Internet 连接 。 一 些 公司 开始 建立 大 型 的 计算 机 服务 机 房 , 被 
称 为 Internet 数据 中 心 (IDCs), 它 提供 了 商业 的 系统 部 署 和 操作 的 解决 方案 ,为 这 些 互 联 
网 公司 提供 专业 化 的 基础 设施 服务 。 自 2007 年 起 ,数据 中 心 的 设计 ,构建 和 运营 逐步 形成 
了 了 一 门 学 科 , 并 且 有 国际 化 的 标准 组 织 , 如 电讯 产业 联合 会 (ITU) ,详细 制定 数据 中 心 相 
关 的 需求 和 标准 。 

维基 百科 给 出 的 数据 中 心 定义 是 “一 整套 复杂 的 设施 , 它 不 仅 包括 计算 机 、 系 统 和 其 他 
与 之 配套 的 设备 (例如 通信 和 存储 系统 ) .还 包含 匈 余 的 数据 通信 和 连接、 环境 控制 设备 监控 
设备 以 及 各 种 安全 装置 "。 目 前 ,数据 中 心 在 各 行业 都 发 挥 着 至 关 重 要 的 作用 ,承载 着 企业 
的 关键 业务 ,为 用 户 提供 及 时 可 靠 的 数据 存储 \ 数 据 检 索 、 数 据 分 析 及 发 据 、 高 性 能 计算 等 服 
务 , 如 Google 数据 中 心 为 全 球 网 民 提 供 搜 索 、 视 频 等 服务 ,腾讯 的 数据 中 心 为 用 户 提 供 微 
信 、QQ、 游 戏 等 服务 。 

从 数据 中 心 模式 服务 的 发 展 而 言 ,其 产生 和 演化 经 历 了 三 个 阶段 : 主机 共享 时 期 ,主机 
托管 时 期 ,应 用 服务 托管 时 期 。 起 初 就 是 主机 托 放 服务 ,只 为 用 户 提 供电 源 、 带 宽 , 机 器 重新 
启动 都 要 自己 来 做 ; 随后 出 现 了 主机 托管 服务 ,主要 是 带宽 上 有 保证 ,电源 上 有 备份 ,并 且 
可 以 部 分 代为 管理 ; 一 些 大 型 的 客户 要 求 更 多 的 增值 服务 ,包括 一 些 关键 性 业务 ,如 要 求 安 
全 性 .数据 流 的 分 析 ,资源 的 占用 状况 等 ,需求 越 来 越 多 ,要 求 有 更 多 的 服务 。 在 这 种 情况 
下 ,出 现 了 提供 综合 服务 的 大 型 数据 中 心服 务 商 。 这 个 时 期 比较 成 熟 的 数据 中 心 模式 才 算 
正式 出 现 。 

随 着 云 计 算 的 发 展 ,IT 资源 的 应 用 和 共享 方式 发 生 了 巨大 的 变化 。 云 计算 是 网 格 计 
算 、 并 行 计算 ,分 布 式 计算 、 虚 拟 化 、 负 载 均衡 等 传统 计算 机 和 网 络 技 术 发 展 融 合 的 产物 。 它 
是 一 种 全 新 的 计算 方式 和 资源 使 用 方式 ,普通 用 户 可 以 十 分 方便 地 接 人 强大 的 IT 资源 并 
按 需 部 署 自己 的 服务 ,同时 多 种 全 新 的 业务 模式 能 够 得 以 实现 ,另外 IT 资源 和 服务 能 够 从 
底层 基础 设施 中 抽象 出 来 ,这 极 大 增强 了 资源 的 共享 性 和 灵活 性 。 数 据 中 心 是 云 计算 的 实 
现 平台 , 云 计算 时 代 的 数据 中 心 已 经 从 原本 的 数据 存储 节点 转变 为 面向 服务 和 应 用 的 IT 
核心 节点 。 随 着 各 种 数据 密集 型 业务 的 出 现 ,数据 中 心 已 经 成 为 唯一 能 够 支持 大 规模 云 计 
算 应 用 的 服务 平台 (例如 Microsoft Azure、Amazon EC2、Google Search、Facebook 等 ) 。 同 
时 ,为 了 给 云 计算 提供 “无 限 可 能 ”的 资源 池 , 数 据 中 心 必须 包含 更 多 存储 资源 .计算 资源 以 
及 通信 和 带宽。 新 一 代数 据 中 心 将 包含 数 万 乃至 数 十 万 台 服 务 器 ,例如 ,目前 Google 在 全 球 
有 三 十 多 个 大 型 数据 中 心 , 单 个 数据 中 心服 务 器 数目 超过 了 45 000 台 , 微 软 在 印第安 纳 州 
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建立 的 数据 中 心 投资 规模 达 6. 7 亿美 元 ,在 计划 构建 的 数据 中 心 可 容纳 的 服务 器 数目 高 达 
300 000 台 ,国内 的 大 型 互联 网 公司 如 阿里 巴巴 、 腾 讯 新 建 的 数据 中 心 规模 也 都 超过 200 000 
台 服 务 器 。 


3.2 数据 采集 


足够 的 数据 量 是 企业 大 数据 战略 建设 的 基础 ,因此 数据 采集 是 大 数据 价值 挖掘 中 的 重 
要 的 一 环 ,其 后 的 分 析 挖 掘 都 建立 在 数据 采集 的 基础 上 。 

数据 的 采集 有 基于 物 联 网 传感器 的 采集 ,也 有 基于 网 络 信息 的 数据 采集 。 比 如 在 智能 
交通 中 ,数据 的 采集 有 基于 GPS 的 定位 信息 采集 、 基 于 交通 摄像 头 的 视频 采集 、 基 于 交通 卡 
口 的 图 像 采 集 、 基 于 路 口 的 线圈 信号 采集 等 。 而 在 互联 网 上 的 数据 采集 是 对 各 类 网 络 媒介 ， 
如 搜索 引擎 ,新 闻 网 站 论坛 . 微 博 博客 、 电 商 网 站 等 的 各 种 页 面 信息 和 用 户 访问 信息 进行 
采集 ,采集 的 内 容 主 要 有 文本 信息 、URL、 访 问 日 志 、 日 期 和 图 片 等 。 之 后 需要 把 采集 到 的 
各 类 数据 进行 清洗 、 过 滤 、 去 重 等 各 项 预 处 理 并 分 类 归纳 存储 。 

在 分 布 式 系统 中 ,经 常 需要 采集 各 个 节点 的 日 志 , 然 后 进行 分 析 。 在 数据 量 呈 爆炸 式 增 
长 的 今天 ,数据 的 种 类 丰富 多 样 , 也 有 越 来 越 多 的 数据 需要 将 存储 和 计算 放 到 分 布 式 平台 。 
数据 采集 过 程 中 的 ETL 工具 将 分 布 的 . 异 构 数据 源 中 的 不 同 种 类 和 结构 的 数据 抽取 到 临时 
中 间 层 后 进行 清洗 .转换 .分 类 、 集 成 ,最 后 加 载 到 对 应 的 数据 存储 系统 ,如 数据 仓库 或 数据 
集 市 中 ,成 为 联机 分 析 处 理 ,数据 挖掘 的 基础 。 企 业 每 天 都 会 产生 大 量 的 日 志 数据 ,对 这 些 
日 志 数据 的 处 理 需 要 特定 的 日 志 系统 。 因 为 与 传统 的 数据 相 比 ,大 数据 的 体 量 巨大 ,产生 速 
度 非 常 快 , 对 数据 的 预 处 理 需要 实时 快速 ,因此 在 ETL 的 架构 和 工具 选择 上 ,也 需要 采用 分 
布 式 内 存 数据 、 实 时 流 处 理 系统 等 现代 信息 技术 。 


3.2.1 系统 日 志 采 集 方法 


很 多 互联 网 企业 都 有 自己 的 海量 数据 采集 工具 ,多 用 于 系统 日 志 采 集 , 如 Hadoop 的 
Chukwa.Cloudera 的 Flume.LinkedIn 的 Kafka.Facebook 的 Scribe 等 .这 些 工 具 均 采用 分 
布 式 架构 ,能 满足 每 秒 数 百 MB 的 日 志 数据 采集 和 传输 需求 。 


3.2.2 网 络 数据 采集 方法 : 对 非 结构 化 数据 的 采集 


网 络 数据 采集 是 指 通过 网 络 疏 虫 或 网 站 公开 API 等 方式 从 网 站 上 获取 数据 信息 。 该 
方法 可 以 将 非 结 构 化 数据 从 网 页 中 抽取 出 来 ,将 其 存储 为 统一 的 本 地 数据 文件 ,并 以 结构 化 
的 方式 存储 。 它 支持 图 片 .音频 ,视频 等 文件 或 附件 的 采集 ,附件 与 正文 可 以 自动 关联 。 
除了 网 络 中 包含 的 内 容 之 外 .对 于 网 络 流量 的 采集 可 以 使 用 DPI 或 DFI 等 带宽 管理 技 
术 进 行 处 理 。 
3.2.3 其 他 数据 采集 方法 


对 于 企业 生产 经 营 数据 或 学 科研 究 数据 等 保密 性 要 求 较 高 的 数据 ,可 以 通过 与 企业 或 
研究 机 构 合 作 , 使 用 特定 系统 接口 等 相关 方式 采集 数据 。 
下 面 对 系 统 日 志 采 集 的 工具 进行 详细 介绍 。 
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1. Facebook Scribe 


Scribe 是 Facebook 开源 的 日 志 收 集 系统 ,在 Facebook 内 部 已 经 得 到 大 量 的 应 用 。 它 
能 够 从 各 种 日 志 源 上 收集 日 志 , 存 储 到 一 个 中 央 存 储 系统 (可 以 是 NFS、 分 布 式 文件 系统 
等 ) 上 ,以 便于 进行 集中 统计 分 析 处 理 。 它 为 日 志 的 “分 布 式 收集 ,统一 处 理 ” 提 供 了 一 个 可 
扩展 的 、 高 容错 的 方案 。 

Scribe 最 重要 的 特点 是 容错 性 好 。 当 后 端的 存储 系统 crash 时 ,Scribe 会 将 数据 写 到 本 
地 磁盘 上 , 当 存 储 系 统 恢复 正常 后 ,Scribe 再 将 日 志 重 新 加 载 到 存储 系统 中 。 

Scribe 架构 如 图 3-4 所 示 。 
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图 3-4” ”Scribe 采集 架构 


Scribe 的 架构 比较 简单 ,主要 包括 三 部 分 ,分 别 为 Scribe agent、Scribe 和 存储 系统 。 

(1) Scribe agent。Scribe agent 实际 上 是 一 个 thrift client。 向 Scribe 发 送 数据 的 唯一 
方法 是 使 用 thrift client,Scribe 内 部 定义 了 一 个 thrift 接口 ,用户 使 用 该 接口 将 数据 发 送 给 
Server。 

(2) Scribe。Scribe 接收 到 thrift client 发 送 过 来 的 数据 ,根据 配置 文件 ,将 不 同 topic 
的 数据 发 送 给 不 同 的 对 象 。Scribe 提供 了 各 种 各 样 的 store, 如 file.HDFS 等 ,Scribe 可 将 
数据 加 载 到 这 些 store 中 。 

(3) 存储 系统 。 存 储 系统 实际 上 就 是 Scribe 中 的 store, 当前 Scribe 支持 非常 多 的 
store ,包括 file( 文 件 ) ,buffer( 双 层 存 储 ,一 个 主 储存 .一 个 副 存储 ) ,network( 另 一 个 Scribe 
服务 器 ) ,bucket( 包 含 多 个 store, 通 过 hash 将 数据 存 到 不 同 store 中 ) ,null( 忽 略 数据 )， 
thriftfile( 写 到 一 个 Thrift FileTransport 文件 中 ) 和 mnulti( 把 数据 同时 存放 到 不 同 store 中 ) 。 

2. Apache Chukwa 


Chukwa 是 一 个 非常 新 的 开源 项 目 , 由 于 其 属于 Hadoop 系列 产品 ,因而 使 用 了 很 多 
Hadoop 的 组 件 ( 用 HDFS 存储 ,用 MapReduce 处 理 数 据 ), 它 提供 了 很 多 模块 以 支持 
Hadoop 集群 日 志 分 析 , 如 图 3-5 所 示 。 

1) 需求 

(1) 灵活 的 ,动态 可 控 的 数据 源 ; 

(2) 高 性 能 、 高 可 扩展 的 存储 系统 ; 

(3) 合适 的 框架 ,用 于 对 收集 到 的 大 规模 数据 进行 分 析 。 
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图 3-5 Chukwa 采集 架构 
2) 架构 


Chukwa 中 主要 有 三 种 角色 ,分 别 为 : Adaptor,Agent,Collector。 

(1) Adaptor 数据 源 。 可 封装 其 他 数据 源 ,如 file.UNIX 命令 行 工具 等 。 

目前 可 用 的 数据 源 有 : Hadoop logs, 应 用 程序 度量 数据 ,系统 参数 数据 (如 Linux CPU 
使 用 流 率 ) 。 

(2) HDFS 存储 系统 。Chukwa 采用 了 HDFS 作为 存储 系统 。HDFS 的 设计 初衷 是 支 
持 大 文件 存储 和 小 并 发 高 速写 的 应 用 场景 ,而 日 志 系统 的 特点 恰好 相反 , 它 需 支持 高 并 发 低 
速率 的 写 和 大 量 小 文件 的 存储 。 需 要 注意 的 是 ,直接 写 到 HDFS 上 的 小 文件 是 不 可 见 的 ， 
直到 关闭 文件 。 另 外 ,HDFS 不 支持 文件 重新 打开 。 

(3) Collector 和 Agent。 为 了 克服 (2) 中 的 问题 ,增加 了 Agent 和 Collector 阶段 。 

Agent 的 作用 : 给 Adaptor 提供 各 种 服务 ,包括 启动 和 关闭 Adaptor, 将 数据 通过 
HTTP 传递 给 Collector; 定期 记录 Adaptor 状态 ,以 便 crash 后 恢复 。 

Collector 的 作用 : 对 多 个 数据 源 发 过 来 的 数据 进行 合并 ,然后 加 载 到 HDFS 中 ; 隐藏 
HDFS 实现 的 细节 ,如 HDFS 版 本 更 换 后 ,只 需 修改 Collector 即 可 。 

(4) Demux 和 Achieving。 直 接 支 持 利 用 MapReduce 处 理 数据 。 它 内 置 了 两 个 
MapReduce 作业 ,分别 用 于 获取 data 和 将 data 转化 为 结构 化 的 log。 存 储 到 data store( 可 
以 是 数据 库 或 者 HDFS 等 ) 中 。 

3. LinkedIn Kafka 

Kafka 是 2010 年 12 月 开源 的 项 目 ,采用 Scala 语言 编写 ,使 用 了 多 种 效率 优化 机 制 , 整 
体 架 构 ( 如 图 3-6 所 示 ) 比较 新 颖 (Push/PulD ,更 适合 异 构 集群 。 

1) 设计 目标 

(1) 数据 在 磁盘 上 的 存 取 代价 为 0(1)。 

(2) 高 吞吐 率 , 在 普通 的 服务 器 上 每 秒 也 能 处 理 几 十 万 条 消息 。 

(3) 分 布 式 架构 ,能 够 对 消息 分 区 。 

(4) 支持 将 数据 并 行 地 加 载 到 Hadoop 。 

2) 架构 

Kafka 实际 上 是 一 个 消息 发 布 订阅 系统 。Producer 向 某 个 topic 发 布 消息 ,而 Consumer 订 
阅 某 个 topic 的 消息 ,进而 一 旦 有 新 的 关于 某 个 topic 的 消息 ,Broker 会 传递 给 订阅 它 的 所 
有 Consumer。 在 Kafka 中 .消息 是 按 topic 组 织 的 ,而 每 个 topic 又 会 分 为 多 个 partition ,这 
样 便于 管理 数据 和 进行 负载 均衡 。 同 时 , 它 也 使 用 了 Zookeeper 进行 负载 均衡 。 
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图 3-6 Kafka 采集 处 理 架 构 


Kafka 中 主要 有 三 种 角色 ,分 别 为 Producer、Broker 和 Consumer。 

(1) Producer。Producer 的 任务 是 向 Broker 发 送 数 据 。Kafka 提供 了 两 种 Producer 
接口 ,一 种 是 low level 接口 ,使 用 该 接口 会 向 特定 的 Broker 的 某 个 topic 下 的 某 个 partition 
发 送 数据 ; 另 一 种 是 high level 接口 ,该 接口 支持 同步 /异步 发 送 数据 ,基于 Zookeeper 的 
Broker 自动 识别 和 负载 均衡 (基于 Partitioner) 。 

其 中 ,基于 Zookeeper 的 Broker 自动 识别 值得 一 说 。Producer 可 以 通过 Zookeeper 获 
取 可 用 的 Broker 列表 .也 可 以 在 Zookeeper 中 注册 Listener ,该 Listener 在 以 下 情况 下 会 被 
唤醒 : 四 添加 一 个 Broker; @ 删 除 一 个 Broker; @ 注 册 新 的 topic; @@Broker 注册 已 存在 的 
topic。 

当 Producer 得 知 以 上 事件 时 .可 根据 需要 采取 一 定 的 行动 。 

(2) Broker。Broker 采取 了 多 种 策略 提高 数据 处 理 效率 ,包括 sendfile 和 zero copy 等 
技术 。 

(3) Consumer。Consumer 的 作用 是 将 日 志 信息 加 载 到 中 央 存 储 系统 上 。Kafka 提供 
了 两 种 Consumer 接口 ,一 种 是 low level 的 , 它 维护 到 某 一 个 Broker 的 连接 ,并 且 这 个 连接 
是 无 状态 的 , 即 每 次 从 Broker 上 Pull 数据 时 ,都 要 告诉 Broker 数据 的 偏 移 量 。 另 一 种 是 
high level 接口 , 它 隐藏 了 Broker 的 细节 ,允许 Consumer 从 Broker 上 Push 数据 而 不 必 关 
心 网 络 拓扑 结构 。 更 重要 的 是 ,对 于 大 部 分 日 志 系统 而 言 ,Consumer 已 经 获取 的 数据 信息 
都 由 Broker 保存 ,而 在 Kafka 中 ,由 Consumer 自己 维护 所 取 数 据 信 息 。 

4. Cloudera Flume 

Flume 是 Cloudera 于 2009 年 7 月 开源 的 日 志 系 统 。 它 内 置 的 各 种 组 件 非 常 齐全 ,用 
户 几 乎 不 必 进 行 任何 额外 开发 即 可 使 用 :如 图 3-7 所 示 是 Flume 采集 架构 。 

1) 设计 目标 

(1) 可 靠 性 。 当 节点 出 现 故 障 时 .日志 能 够 被 传送 到 其 他 节点 上 而 不 会 丢失 。Flume 
提供 了 三 种 级 别 的 可 靠 性 保障 ,从 强 到 弱 依 次 分 别 为 : end-to-end( 收 到 数据 agent 首先 将 
event 写 到 磁盘 上 , 当 数 据 传送 成 功 后 ,再 删除 : 如 果 数 据 发 送 失败 ,可 以 重新 发 送 ), Store 
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图 3-7 Flume 采集 架构 


on failure( 这 也 是 Scribe 采用 的 策略 , 当 数 据 接收 方 crash 时 ,将 数据 写 到 本 地 , 待 恢复 后 继 
续 发 送 ) ,Best effort( 数 据 发 送 到 接收 方 后 ,不 会 进行 确认 )。 

(2) 可 扩展 性 。Flume 采用 了 三 层 架 构 , 分 别 为 agent,collector 和 storage, 每 一 层 均 可 
以 水 平 扩 展 。 其 中 ,所 有 agent 和 collector 由 master 统一 管理 ,这 使 得 系统 容易 监控 和 维护 ， 
且 master 允许 有 多 个 (使 用 Zookeeper 进行 管理 和 负载 均衡 ) ,这 就 避免 了 单 点 故障 问题 。 

(3) 可 管理 性 。 所 有 agent 和 colletor 由 master 统一 管理 ,这 使 得 系统 便于 维护 。 用 
户 可 以 在 master 上 查看 各 个 数据 源 或 者 数据 流 执行 情况 , 且 可 以 对 各 个 数据 源 配置 和 动态 
加 载 。Flume 提供 了 Web 和 shell script command 两 种 形式 对 数据 流 进行 管理 。 

(4) 功能 可 扩展 性 。 用 户 可 以 根据 需要 添加 自己 的 agent ,colletor 或 者 storage。 此 
外 ,Flume 自 带 了 很 多 组 件 , 包 括 各 种 agent (file, syslog 等 )、collector 和 storage (file， 
HDFS 等 )。 

2) 架构 

正如 前 面 提 到 的 ,Flume 采用 了 分 层 架 构 , 由 三 层 组 成 , 分 别 为 agent、collector 和 
storage。 其 中 ,agent 和 collector 均 由 两 部 分 组 成 : source 和 sink,source 是 数据 来 源 ,sink 
是 数据 去 向 。 

(1) agent。agent 的 作用 是 将 数据 源 的 数据 发 送 给 collector,Flume 自 带 了 很 多 直接 可 
用 的 数据 源 (source) 。 

(2) collector。collector 的 作用 是 将 多 个 agent 的 数据 汇总 后 ,加 载 到 storage 中 。 它 
的 source 和 sink 与 agent 类 似 。 

(3) storage。storage 是 存储 系统 ,可 以 是 一 个 普通 文件 ,也 可 以 是 HDFS, Hive， 
HBase 等 。 


3.3 数据 存储 


云 计算 中 的 数据 存储 是 实现 云 计算 系统 架构 中 的 一 个 重要 组 成 部 分 。 云 存储 专注 于 解 
决 云 计算 中 海量 数据 的 存储 问题 , 它 既 可 以 给 云 计算 技术 提供 专业 的 存储 解决 方案 ,又 可 以 
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独立 发 布 存储 服务 。 云 存储 将 存储 作为 服务 , 它 将 分 别 位 于 网 络 中 不 同位 置 的 大 量 类 型 各 
异 的 存储 设备 通过 集群 应 用 、 网 格 技术 和 分 布 式 文件 系统 等 集合 起 来 协同 工作 ,通过 应 用 软 
件 进行 业务 管理 ,并 通过 统一 的 应 用 接口 对 外 提供 数据 存储 和 业务 访问 功能 。 目 前 , 云 存 储 
的 兴起 正在 颠覆 传统 的 存储 系统 架构 ,其 正 以 良好 的 可 扩展 性 、 性 价 比 和 容错 性 等 优势 得 到 
业界 的 广泛 认同 。 云 存储 系统 具有 良好 的 可 扩展 性 、 容 错 性 ,以 及 内 部 实现 对 用 户 透 明 等 特 
性 ,这 一 切 都 离 不 开 分 布 式 文件 系统 的 支撑 。 现 有 的 云 存储 分 布 式 文件 系统 包括 Google 
GFS、Hadoop HDFS、Lustre、FastDFS、Clemsom 大 学 的 PVFS、Sun PFS、 加 州 大 学 Santa 
Cruz 分 校 Sage Weil 设计 的 Ceph 和 Taobao TFS 等 。 

目前 存在 的 数据 库存 储 方案 有 结构 化 存储 方案 SQL、 非 结构 化 存储 方案 NoSQL 和 革 
新 的 结构 化 方案 NewSQL。 

SQL 一 般 指 的 是 关系 型 数据 库 RDBMS, 是 目前 为 止 企业 应 用 中 最 为 成 功 的 数据 存储 
方案 , 仍 有 相当 大 一 部 分 的 企业 把 SQL 数据 库 作为 数据 存储 方案 。 关 系 型 数据 库 能 够 较 好 
地 保证 事务 的 ACID 特性 ,但 在 可 扩展 性 、 可 用 性 等 方面 ,表现 出 较 大 的 不 足 , 并 且 只 能 处 理 
结构 化 的 数据 , 面 对 数 据 的 多 样 性 、 处 理 数 据 的 实时 性 等 方面 ,都 不 能 满足 大 数据 时 代 环 境 
下 数据 处 理 的 需要 。 使 用 较 多 的 SQL 产品 有 IBM DB2、 Oracle、 MySQL、 MS SQL 
Server 等 。 

NoSQL 是 为 了 解决 SQL 的 不 足 而 产生 的 。 大 数据 时 代 , 数 据 的 显著 特点 就 是 数据 量 
大 ,这 些 数据 是 TB 或 PB 级 别 以 上 的 量 级 ; 数据 结构 不 统一 ,包括 结构 化 的 、 半 结构 化 的 和 
非 结 构 化 的 数据 ,其 规模 或 复杂 程度 超出 了 常用 传统 数据 库 和 软件 技术 所 能 管理 和 处 理 的 
数据 集 范 围 。 

NoSQL 有 和 良好、 便捷 的 横向 扩展 性 ,可 以 满足 海量 数据 的 存储 需求 。NoSQL 是 一 种 无 
模式 的 数据 存储 模型 ,可 以 应 对 Web 应 用 上 各 种 半 结 构 化 的 数据 ,灵活 简单 的 数据 模型 以 
及 弱 一 致 性 的 特性 使 得 高 并 发 情况 下 数据 查询 的 性 能 优异 。 可 以 说 NoSQL 是 大 数据 时 代 
数据 库 领 域 不 可 或 缺 的 重要 一 员 。NoSQL 的 主要 优势 与 特点 如 下 。 

(1) 灵活 的 数据 模型 : 多 样 的 数据 模型 支持 ,有 基于 key-value 的 、 基 于 列 存储 的 、 基 于 
图 的 一 系列 数据 模型 。 

(2) 灵活 的 可 扩展 性 、 经 济 性 : 相对 于 RDBMS 来 说 ,NoSQL 最 突出 的 一 个 特点 就 是 横 
向 扩展 ,NoSQL 数据 库 通 常 使 用 廉价 的 服务 器 集群 来 管理 膨胀 的 数据 和 事务 数量 , 而 
RDBMS 通常 需要 依靠 昂贵 的 专 有 服务 器 和 存储 系统 来 做 到 这 一 点 。 使 用 NoSQL ,每 GB 
的 成 本 或 每 秒 处 理事 务 的 成 本 ,都 比 使 用 RDBMS 少 很 多 倍 ,可 以 花费 更 低 的 成 本 来 存储 和 
处 理 更 多 的 数据 。 

NoSQL 能 取得 高 扩展 性 是 因为 在 设计 时 放松 了 事务 的 ACID 特性 。 根 据 CAP 定理 ， 
数据 库 系统 不 可 能 同时 满足 一 致 性 (Consistency)、 可 用 性 (Availability) 和 分 区 容错 性 
(Partition Tolerance) 三 个 特性 ,最 多 只 能 选择 其 中 的 两 项 。NoSQL 数据 库 在 设计 时 经 常 
会 保证 分 区 容错 性 ,而 牺牲 一 致 性 或 可 用 性 ,因而 NoSQL 的 应 用 范围 也 受到 了 很 大 的 限 
制 。 如 何 构 建 具有 高 可 扩展 性 、 高 可 用 性 、 高 性 能 的 ,同时 还 能 保证 ACID 事务 特性 的 数据 
库 就 成 为 新 的 发 展 方向 。 现 有 的 NoSQL 数据 库 有 很 多 ,例如 HBase、Cassandra、 
MongoDB CouchDB Hypertable、Redis 等 。 

NewSQL 是 为 解决 上 述 数据 库存 在 的 不 足 , 顺 应 科技 发 展 的 产物 。 该 类 数据 库 要 求 ， 
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不 仅 要 具有 NoSQL 对 海量 数据 的 存储 管理 能 力 , 还 要 保持 对 传统 数据 库 支持 ACID 和 SQL 
等 特性 。 目 前 .NewSQL 系统 产品 有 H-Store、VoltDB、NuoDB、TokuDB .MemSQL 等 。 


3.3.1 结构 化 数据 存储 


结构 化 数据 即行 数据 ,存储 在 数据 库 里 ,可 以 用 二 维 表 结 构 来 逻辑 表达 现实 的 数据 。 传 
统 的 关系 型 数据 库存 储 的 都 是 结构 化 数据 。 常 用 的 关系 型 数据 库 有 : Oracle Database、 
MySQL SQL Server 和 DB2 等 。 下 面 简单 介绍 下 这 些 数据 库 。 

1. Oracle Database 

Oracle 数据 库 系 统 是 美国 Oracle 公司 (甲骨 文 ) 提 供 的 以 分 布 式 数 据 库 为 核心 的 一 组 
软件 产品 ,是 目前 最 流行 的 客户 /服务 器 (Client/Server) 或 B/S 体系 结构 的 数据 库 之 一 。 比 
如 SilverStream 就 是 基于 数据 库 的 一 种 中 间 件 。Oracle 数据 库 是 目前 世界 上 使 用 最 为 广泛 
的 数据 库 管理 系统 ,作为 一 个 通用 的 数据 库 系 统 , 它 具有 完整 的 数据 管理 功能 ; 作为 一 个 关 
系数 据 库 , 它 是 一 个 完备 关系 的 产品 ; 作为 分 布 式 数据 库 , 它 实现 了 分 布 式 处 理 功 能 。 但 只 
要 在 一 种 机 型 上 学 习 了 Oracle 知识 , 便 能 在 各 种 类 型 的 机 器 上 使 用 它 。 

Oracle 数据 库 最 新 版 本 为 Oracle Database 12c。Oracle 数据 库 12c 引 入 了 一 个 新 的 多 
承租 方 架构 ,使 用 该 架构 可 轻松 部 署 和 管理 数据 库 云 。 此 外 ,一 些 创新 特性 可 最 大 限度 地 提 
高 资源 使 用 率 和 灵活 性 ,如 Oracle Multitenant 可 快速 整合 多 个 数据 库 , 而 Automatic Data 
Optimization 和 Heat Map 能 以 更 高 的 密度 压缩 数据 和 对 数据 分 层 。 这 些 独 一 无 二 的 技术 
进步 再 加 上 在 可 用 性 、 安 全 性 和 大 数据 支持 方面 的 主要 增强 ,使 得 Oracle 数据 库 12c 成 为 
私有 云 和 公有 云 部 署 的 理想 平台 。 

2. MySQL 

MySQL 是 一 个 关系 型 数据 库 管 理 系统 ,由 瑞典 MySQL AB 公司 开发 ,目前 属于 
Oracle 旗下 产品 。MySQL 是 最 流行 的 关系 型 数据 库 管 理 系统 ,在 Web 应 用 方面 MySQL 
是 最 好 的 RDBMS (Relational Database Management System, 关 系数 据 库 管理 系统 ) 应 用 软 
4 

MySQL 是 一 种 关联 数据 库 管理 系统 ,关联 数据 库 将 数据 保存 在 不 同 的 表 中 ,而 不 是 将 
所 有 数据 放 在 一 个 大 仓库 内 ,这 样 就 增加 了 速度 并 提高 了 灵活 性 。 

MySQL 所 使 用 的 SQL 是 用 于 访问 数据 库 的 最 常用 标准 化 语言 。MySQL 软件 采用 了 
双 授 权 政 策 , 分 为 社区 版 和 商业 版 ,由 于 其 体积 小 .速度 快 ,总 体 拥有 成 本 低 ,尤其 是 开放 源 
码 这 一 特点 ,一 般 中 小 型 网 站 的 开发 都 选择 MySQL 作为 网 站 数据 库 。 

由 于 其 社区 版 的 性 能 卓越 ,搭配 PHP 和 Apache 可 组 成 良好 的 开发 环境 。 

3. SQL Server 

SQL Server 是 一 个 关系 数据 库 管理 系统 。 它 最 初 是 由 Microsoft、Sybase 和 Ashton- 
Tate 三 家 公司 共同 开发 的 ,于 1988 年 推出 了 第 一 个 OS/2 版 本 。 在 Windows NT 推出 后 ， 
Microsoft 与 Sybase 在 SQL Server 的 开发 上 就 分 道 扬 镰 了 ,Microsoft 将 SQL Server 移植 
到 Windows NT 系统 上 .专注 于 开发 推广 SQL Server 的 Windows NT 版 本 。Sybase 则 较 
专注 于 SQL Server 在 UN 操作 系统 上 的 应 用 。 
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4. DB2 

IBM DB2 是 美国 IBM 公司 开发 的 一 套 关 系 型 数据 库 管 理 系统 , 它 主要 的 运行 环境 为 
UNIX( 包 括 IBM 自家 的 AIX) 、Linux、IBM i( 旧 称 OS/400)、.z/OS, 以 及 Windows 服务 器 
版 本 。 

DB2 主要 应 用 于 大 型 应 用 系统 ,具有 较 好 的 可 伸缩 性 ,可 支持 从 大 型 计算 机 到 单 用 户 
环境 ,应 用 于 所 有 常见 的 服务 器 操作 系统 平台 下 。DB2 提供 了 高 层次 的 数据 利用 性 、 完 整 
性 、 安 全 性 、 可 恢复 性 ,以 及 小 规模 到 大 规模 应 用 程序 的 执行 能 力 , 具 有 与 平台 无 关 的 基本 功 
能 和 SQL 命令 。DB2 采用 了 数据 分 级 技术 ,能 够 使 大 型 计算 机 数据 很 方便 地 下 载 到 LAN 
数据 库 服 务 器 ,使 得 客户 /服务 器 用 户 和 基于 LAN 的 应 用 程序 可 以 访问 大 型 计算 机 数据 ， 
并 使 数据 库 本 地 化 及 远程 连接 透明 化 。DB2 以 拥有 一 个 非常 完备 的 查询 优化 器 而 著称 ,其 
外 部 连接 改善 了 查询 性 能 ,并 支持 多 任务 并 行 查 询 。DB2 具有 很 好 的 网 络 支持 能 力 , 每 个 
子 系统 可 以 连接 十 几 万 个 分 布 式 用 户 , 可 同时 激活 上 千 个 活动 线程 ,对 大 型 分 布 式 应 用 系统 
尤为 适用 。 

DB2 除了 可 以 提供 主流 的 OS/390 和 VM 操作 系统 ,以 及 中 等 规模 的 AS/400 系统 之 
外 ,IBM 还 提供 了 跨 平台 (包括 基于 UNIX 的 Linux, HP-UX,Sun Solaris 等 ; 还 有 用 于 个 
人 计算 机 的 OS/2 操作 系统 ,以 及 微软 的 Windows 和 其 早期 的 系统 ) 的 DB2 产品 。DB2 数 
据 库 可 以 通过 使 用 微软 的 开放 数据 库 连 接 (ODBC) 接 口 、Java 数据 库 连 接 (JDBC) 接 口 , 或 
者 CORBA 接口 代理 被 任何 的 应 用 程序 访问 。 


3.3.2 非 结 构 化 数据 存储 


相对 于 结构 化 数据 (即行 数据 ,存储 在 数据 库 里 ,可 以 用 二 维 表 结 构 来 逻辑 表达 现实 的 
数据 ) 而 言 ,不 方便 用 数据 库 二 维 逻 辑 表 来 表现 的 数据 即 称 为 非 结 构 化 数据 ,包括 所 有 格式 
的 办 公文 档 \ 文 本 .图 片 、 标 准 通用 标记 语言 下 的 子 集 XML HTML、 各 类 报表 .图像 和 音 
频 / 视 频 信息 等 。 

非 结 构 化 数据 库 是 指 其 字段 长 度 不 等 ,并 且 每 个 字段 的 记录 又 可 以 由 可 重复 或 不 可 重 
复 的 子 字段 构成 的 数据 库 , 用 它 不 仅 可 以 处 理 结构 化 数据 (如 数字 、 符 号 等 信息 ) 而 且 更 适合 
处 理 非 结 构 化 数据 (全 文 文本 、 图 像 、 声 音 、 影 视 、 超 媒体 等 信息 )。 

非 结构 化 Web 数据 库 主 要 是 针对 非 结 构 化 数据 而 产生 的 ,与 以 往 流行 的 关系 数据 库 相 
比 ,其 最 大 区 别 在 于 它 突 破 了 关系 数据 库 结 构 定 义 不 易 改变 和 数据 定 长 的 限制 ,支持 重复 字 
段子 字段 以 及 变 长 字段 并 实现 了 对 变 长 数据 和 重复 字段 进行 处 理 和 数据 项 的 变 长 存储 管 
理 ,在 处 理 连续 信息 (包括 全 文 信息 ) 和 非 结构 化 信息 (包括 各 种 多 媒体 信息 ) 中 有 着 传统 关 
系 型 数据 库 所 无 法 比拟 的 优势 。 

为 了 解决 非 结构 化 数据 的 存储 和 并 发 计算 以 及 扩展 能 力 , NoSQL 登 上 了 舞台 ,如 
Google 的 BigTable.Amazon 的 Dynamo, 以 及 Apache 的 HBase。NoSQL 支持 强大 的 水 平 
扩展 能 力 和 高 性 能 ,与 关系 数据 库 不 同 的 是 ,NoSQL 可 以 采用 松弛 一 致 性 。 如 最 终 一 致 性 ， 
或 交易 仅 限于 单个 的 数据 项 。 像 在 Dynamo 中 为 了 提供 高 的 写 的 能 力 ( 购 物 时 不 会 因为 并 
发 而 导致 添加 购物 车 不 成 功 ,影响 用 户 体验 ), 不 得 不 采取 最 终 一 致 性 。 在 Dynamo 中 牺牲 
了 一 致 性 ,但 是 提供 高 的 可 用 性 。 另 外 .Dynamo 采用 非 集中 化 管理 ,使 得 每 个 节点 都 是 同 
等 地 位 ,充分 利用 分 布 式 哈 希 表 (DHT) 的 一 种 实现 即 一 致 性 哈 希 ,使 得 Dynamo 提供 强大 
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的 可 扩展 性 。HBase 可 以 说 提供 强 的 一 致 性 ,但 是 牺牲 掉 了 一 定 的 高 可 用 性 ,比如 存在 单 
点 故障 ,在 当 一 个 Region Server 出 问题 或 失去 联系 时 ,需要 master 来 重新 部 署 原 Region 
Server 下 面 的 Region 到 别 的 空闲 服务 器 下 。 这 段 时 间 无 法 与 下 面 的 Region 联系 。HBase 
是 Apache 的 顶级 项 目 Hadoop 的 一 个 组 成 部 分 .Hadoop 是 一 种 分 布 式 系统 基础 架构 。 它 
可 以 充分 利用 集群 的 威力 高 速 运算 和 存储 。 后 文 会 着 重 介绍 HBase。 


3.4 数据 处 理 


在 大 数据 的 环境 下 ,数据 处 理 除 了 标准 的 查询 、 统 计 、 分 析 、 商 业 智 能 之 外 ,主要 还 体现 
在 数据 挖 据 、 深 度 学 习 、 社 交 计算 、 计 算 广 告 等 几 个 方面 。 

数据 挖掘 又 称 从 数据 库 中 发 现 知识 (KDD) 、 数 据 分 析 、 数 据 融 合 以 及 决策 支持 。 数 据 
挖掘 领域 已 经 有 了 较 长 时 间 的 发 展 ,但 随 着 研究 的 不 断 深入 、 应 用 的 印发 广泛 ,数据 挖掘 的 
关注 焦点 也 逐渐 有 了 新 的 变化 。 其 总 的 趋势 是 数据 挖掘 研究 和 应 用 更 加 “大 数据 化 ”和 “ 社 
会 化 "。 在 用 户 层面 ,移动 计算 设备 的 普及 与 大 数据 革命 带 来 的 机 遇 使 得 搜索 引擎 对 用 户 所 
处 的 上 下 文 环境 具有 了 前 所 未 有 的 深刻 认识 ,但 对 于 如 何 将 认识 上 的 深入 转化 为 用 户 信 息 
获取 过 程 的 便利 仍然 缺乏 成 功 经 验 。 近 年 来 ,以 用 户 个 性 化 .用户 交 互 等 为 代表 的 研究 论文 
的 数量 大 幅 增加 。 除 此 之 外 ,社交 网 络 服务 的 兴起 对 互联 网 数据 环境 和 用 户 群 体 均 将 形成 
关键 性 的 影响 ,如 何 更 好 地 面 对 相 对 封闭 的 社交 网 络 数据 环境 和 被 社交 关系 组 织 起 来 的 用 
户 群 体 , 也 是 数据 挖掘 面临 的 机 遇 与 挑战 。 

深度 学 习 是 机 器 学 习 研 究 中 的 一 个 新 的 领域 。 它 在 于 建立 模拟 人 脑 进行 分 析 学 习 的 神 
经 网 络 , 模 仿 人 脑 机 制 来 解释 一 些 特定 类 别 的 数据 ,例如 图 像 . 语 音 和 文本 。 它 是 无 监督 学 
习 的 一 种 。 深 度 学 习 的 主要 思想 是 增加 神经 网 络 中 隐藏 层 的 数量 ,使 用 大 量 的 隐藏 层 来 增 
强 神经 网 络 对 特征 筛选 的 能 力 , 以 增加 网 络 层 数 的 方式 来 取代 之 前 依赖 人 工 技巧 的 参数 调 
优 ,从 而 能 够 用 较 少 的 参数 表达 出 复杂 的 模型 函数 ,从 而 逼近 机 器 学 习 的 终极 目标 一 一 知识 
的 自动 发 现 。 

社交 网 络 每 天 都 会 产生 大 量 的 用 户 数据 , 它 吸引 着 无 数 研 究 者 从 无 序 的 数据 中 发 气 有 
价值 的 信息 。 在 社交 网 络 的 分 析 与 研究 过 程 中 ,会 利用 到 社会 学 ,心理 学 甚至 是 医学 的 基本 
理论 来 作为 指导 。 社 交 网 络 上 的 传播 模型 .虚假 信息 和 机 器 人 账号 的 识别 ,基于 社交 网 络 信 
息 对 股市 .大选 以 及 传染 病 的 预测 ,社区 圈子 的 区 别 , 社 交 网 络 中 人 物 的 影响 力 等 ,都 可 以 作 
为 社交 网 络 中 的 研究 课题 。 通 过 人 工 智能 领域 的 机 器 学 习 、 图 论 等 算法 对 社交 网 络 中 行为 
和 未 来 的 趋势 进行 模拟 和 预测 。 

计算 广告 是 一 门 正在 兴起 的 分 支 学 科 。 它 由 信息 科学 、 统 计 学 、 计 算 机 科学 以 及 微观 经 
济 学 等 学 科 交 叉 融 合 而 成 。 它 涉及 大 规模 搜索 和 文本 分 析 、 信 息 获取 统计 模型 .机 器 学 习 、 
分 类 、 优 化 及 微观 经 济 学 。 计 算 广 告 学 所 面临 的 最 主要 挑战 是 在 特定 语 境 下 特定 用 户 和 相 
应 的 广告 之 间 找 到 “最 佳 匹配 ”。 语 境 可 以 是 用 户 在 搜索 引擎 中 输入 的 查询 词 ,也 可 以 是 用 
户 正 在 读 的 网 页 ,还 可 以 是 用 户 正 在 看 的 电影 等 。 而 用 户 相 关 的 信息 可 能 非常 多 也 可 能 非 
常 少 。 潜 在 广告 的 数量 可 能 达到 几 十 亿 。 因 此 ,取决 于 对 “最 佳 匹 配 ” 的 定义 ,面临 的 挑战 可 
能 导致 在 复杂 约束 条 件 下 的 大 规模 优化 和 搜索 问题 。 

面向 大 数据 处 理 的 数据 查询 、 统 计 、 分 析 、 挖 掘 等 需求 , 促 生 了 大 数据 的 不 同 计算 模式 。 
我 们 将 大 数据 的 计算 模式 按照 时 间 维度 和 数据 处 理 方式 两 个 方式 来 进行 划分 。 从 时 间 维 度 


72 


大 数据 -数据 管理 与 数据 I 程 
上 来 讲 , 可 以 分 为 实时 计算 和 离线 ( 非 实 时 ) 计 算 。 

实时 计算 ,强调 的 是 计算 能 够 实时 完成 。 这 里 的 实时 ,并 没有 严格 的 定义 ,一 般 都 跟 应 
用 的 需求 有 关 。 在 大 数据 处 理 领域 ,一 般 指 的 是 处 理 时 间 在 秒 级 ,在 一 些 对 响应 时 间 要 求 很 
严格 的 工业 级 应 用 中 ,要 求 甚至 达到 毫秒 级 。 

离线 计算 , 则 与 实时 计算 相反 ,对 处 理 时 间 没 有 强制 要 求 , 但 一 般 计算 数据 量 会 相当 大 ， 
处 理 时 间 能 达到 几 个 小 时 甚至 几 天 。 

从 数据 的 处 理 方式 来 说 ,大 数据 处 理 可 以 分 为 流 计 算 和 批 处 理 。 

流 计 算 , 指 的 是 数据 在 源源 不 断 产生 ,并 且 数 据 一 到 来 就 立即 进行 处 理 的 计算 模式 ,该 
模式 一 般 会 一 直 占 用 计算 资源 不 进行 释放 ,从 而 保证 数据 到 来 时 能 够 马上 进行 处 理 。 流 计 
算 具 有 如 下 的 特点 。 

(1) 类 似 数学 中 的 连续 函数 ,计算 在 连续 进行 ; 

(2) 并 不 保证 计算 是 实时 的 , 它 只 保证 数据 在 第 一 时 间 被 处 理 ; 

(3) 资源 的 持续 占用 。 

批 处 理 , 指 数据 到 来 后 ,并 不 是 立即 处 理 , 而 是 累积 到 一 定量 才 进 行 处 理 。 因 此 ,该 模式 
不 要 求 对 计算 资源 的 持续 占用 。 相 对 于 流 处 理 , 批 处 理 的 特点 如 下 。 

(1) 类 似 数学 中 的 离散 函数 ,计算 在 每 个 离散 点 进行 ; 

(2) 批 处 理 并 不 意味 着 计算 一 定 达 不 到 实时 , 它 只 说 明 数 据 是 以 批量 的 形式 处 理 ; 

(3) 不 用 一 直 占 用 资源 。 

传统 技术 通过 缩短 批 处 理 间隔 时 间 可 以 实现 准 实时 计算 。 传 统 技术 中 ,大 多 采用 批 处 
理 模 式 对 数据 进行 处 理 。 为 了 达到 实时 效果 ,采用 不 断 缩 短 批 处 理 间隔 时 间 的 方式 来 实现 
实时 计算 。 例 如 实时 数据 库 技术 ,缩小 批 处 理 数据 累积 时 间 , 从 小 时 转 为 分 钟 等 ,并 提高 机 
器 处 理性 能 ,就 能 实现 准 实时 计算 。 

但 是 , 随 着 数据 量 的 增多 , 且 业 界 对 实时 间隔 时 间 的 定义 越 来 越 短 , 批 处 理 数据 累积 时 
间 也 越 来 越 短 ,甚至 直接 使 累积 时 间 为 0, 这样, 流 计算 的 原型 就 诞生 了 。 

流 计算 一 般 是 为 实时 计算 场景 所 设计 。 由 于 流 计 算 的 产生 本 来 就 是 源 于 实时 计算 的 需 
求 , 因 此 现 有 的 流 计算 技术 均 采 用 了 内 存 计算 、 并 行 计算 等 多 种 计算 技术 ,提高 了 快速 实时 
计算 能 力 , 所 以 流 计算 能 够 解决 实时 计算 问题 。 

但 从 流 计算 本 质 来 看 ,如 果 一 个 系统 能 保证 数据 进入 系统 时 就 开始 处 理 , 但 是 ,整个 处 
理 过 程 可 能 由 于 某 些 高 延迟 性 操作 如 大 量 磁盘 读 写 操作 ,导致 处 理 时 间 较 长 ,该 系统 依然 是 
流 计算 ,而 不 是 实时 计算 。 

在 实际 的 大 数据 处 理 场景 中 ,一 般 不 存在 流 计算 和 离线 计算 相 结 合 的 场景 ,因此 在 整体 
上 ,我 们 把 大 数据 的 计算 模式 只 分 为 离线 批 处 理 、 实 时 交互 计算 和 流 计算 三 种 模式 。 


3.4.1 离线 批 处 理 


随 着 云 计算 技术 的 广泛 应 用 和 发 展 ,基于 开源 的 Hadoop 分 布 式 存储 系统 和 
MapReduce 数据 处 理 模式 的 分 析 系 统 也 得 到 了 广泛 的 应 用 。Hadoop 采用 数据 分 块 及 自 恢 
复 机 制 ,能 支持 PB 级 的 分 布 式 的 数据 存储 ,而 且 它 是 基于 MapReduce 分 布 式 处 理 模 式 对 
这 些 数据 进行 分 析 和 处 理 的 。MapReduce 编程 模型 可 以 很 容易 地 将 多 个 通用 批 数据 处 理 
任务 和 操作 在 大 规模 集群 上 并 行 化 ,而 且 它 有 自动 化 的 故障 转移 功能 。MapReduce 编程 模 
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型 在 Hadoop 这 样 的 开源 软件 的 带动 下 被 广泛 采用 .如 在 Web 搜索 .欺诈 检测 等 各 种 各 样 
的 实际 应 用 中 。 

Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ,而 且 是 以 一 种 可 靠 、 高 
效 、 可 伸缩 的 方式 进行 处 理 , 依 靠 横向 扩展 ,通过 不 断 增 加 廉价 的 商用 服务 器 来 提高 计算 和 
存储 能 力 。 用 户 可 以 轻松 地 在 上 面 开发 和 运行 处 理 海量 数据 的 应 用 程序 。Hadoop 主要 有 
以 下 几 个 优点 。 

(1) 高 可 靠 性 : 按 位 存储 和 处 理 数 据 的 能 力 值得 人 们 信赖 。 

(2) 高 扩展 性 : 在 可 用 的 计算 机 集群 中 分 配 数据 并 完成 计算 任务 ,这 些 集群 可 以 方便 
地 扩展 到 数 以 千 计 的 节点 规模 。 

(3) 高 效 性 : 能 够 在 节点 之 间 动 态 地 移动 数据 ,并 保证 各 个 节点 的 动态 平衡 ,因此 处 理 
速度 非常 快 。 

(4) 高 容错 性 : 能 够 自动 保存 数据 的 多 个 副本 ,并 且 能 够 自动 将 失败 的 任务 重新 分 配 。 

Hadoop 平台 主要 面向 离线 批 处 理应 用 , 它 是 通过 调度 批量 任务 操作 大 规模 的 静态 数 
据 , 因 此 ,计算 过 程 相对 缓慢 ,有 的 查询 可 能 会 花 几 小 时 甚至 更 长 时 间 才 有 结果 ,对 于 实时 性 
要 求 更 高 的 应 用 和 服务 则 显得 力不从心 。MapReduce 是 一 种 很 好 的 集群 并 行 编程 模型 ， 
能 够 满足 大 部 分 应 用 的 需求 。 虽 然 MapReduce 是 分 布 式 /并 行 计算 方面 一 个 很 好 的 模 
型 ,但 它 并 不 一 定 适合 解决 计算 领域 的 任何 问题 。 例 如 ,那些 需要 实时 获取 计算 结果 的 
应 用 , 像 基 于 流量 的 点 击 付费 模式 的 广告 投放 ,基于 实时 用 户 行 为 数据 分 析 的 社交 推荐 ， 
基于 网 页 检索 和 点 击 流量 的 反 作 潍 统计 ,等 等 。 对 于 这 些 实时 应 用 , MapReduce 并 不 能 
提供 高 效 处 理 , 因 为 处 理 这 些 应 用 逻辑 需要 执行 多 轮作 业 , 或 者 需要 将 输入 数据 的 粒度 
切 分 到 很 小 。 

现在 也 有 一 些 基于 Hadoop 的 系统 来 处 理 流 式 数据 的 系统 ,一 般 有 以 下 几 种 方式 。 但 
它们 也 只 是 在 一 定 程度 上 降低 延 时 ,总 的 任务 调度 模式 仍 属于 批 处 理 。 

(1) 微型 批 处 理 MapReduce: 就 是 把 流 式 的 数据 按照 时 间或 者 大 小 形成 小 的 静态 数 
据 , 然 后 分 别 启动 MapReduce 来 计算 。 这 种 方式 的 缺点 在 于 其 延迟 与 数据 片段 的 长 度 , 以 
及 分 隔 片段 、 初 始 化 处 理 任务 的 附加 开销 成 正比 。 小 的 分 段 会 降低 延迟 ,增加 附加 开销 ,并 
且 使 分 段 间 的 依赖 管理 更 加 复杂 (例如 一 个 分 段 可 能 会 需要 前 一 个 分 段 的 信息 ) 。 反 之 ,大 
的 分 段 会 增加 延迟 。 最 优化 的 分 段 大 小 依赖 于 具体 的 应 用 。 

(2) 连续 的 MapReduce: 像 Hadoop Online 这 样 的 系统 ,通过 作业 内 的 数据 传输 流水 
线 和 作业 间 的 数据 传输 流水 线 机 制 ,实现 了 在 线 聚 合 和 连续 查询 。 当 前 MapReduce 模型 
中 ,只 有 Map 中 间 结 果 完 全 产生 后 ,Reduce 才 会 过 来 拖 数 据 , 等 所 有 Map 数据 都 拖 成 功 
后 .才能 计算 。Hadoop Online 实现 了 Map 到 Reduce 间 的 数据 流水 线 , 使 得 Map 在 产生 部 
分 数据 后 ,就 可 以 送 到 Reduce 端 ,以 便 Reduce 可 以 提前 或 者 定期 计算 。 

(3) 动态 添加 输入 : 百度 的 一 种 实现 ,用 来 解决 计算 时 数据 还 没有 到 位 的 问题 。 作 业 
可 以 在 数据 还 没有 完全 到 位 的 情况 下 启动 , 当 新 数据 累积 到 一 定量 时 ,通过 一 个 命令 行 接 
口 , 向 运行 中 的 作业 动态 增加 新 的 输入 。 这 种 方式 大 大 减少 了 处 理 大 数据 作业 时 等 待 数据 
到 位 的 时 间 ,在 依次 执行 多 个 作业 时 ,也 会 有 时 间 收 益 。 

这 类 基于 MapReduce 进行 流 式 处 理 的 方案 有 三 个 主要 缺点 。 

(1) 将 输入 数据 分 割 成 固定 大 小 的 片段 ,再 由 MapReduce 平台 处 理 , 缺 点 在 于 处 理 延 
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大 数据 "长 括 优 更 点 数据 二 种 
迟 与 数据 片段 的 长 度 . 初 始 化 处 理 任 务 的 开销 成 正比 。 小 的 分 段 会 降低 延迟 ,增加 附加 开 
销 ,而 且 分 段 之 间 的 依赖 管理 更 加 复杂 (例如 一 个 分 段 可 能 会 需要 前 一 个 分 段 的 信息 ); 反 
之 ,大 的 分 段 会 增加 延迟 。 最 优化 的 分 段 大 小 取决 于 具体 应 用 。 

(2) 为 了 支持 流 式 处 理 ,MapReduce 需要 被 改造 成 Pipeline 的 模式 ,而 不 是 Reduce 直 
接 输 出 。 考 虑 到 效率 ,中 间 结 果 最 好 只 保存 在 内 存 中 ,等 等 。 这 些 改动 使 得 原 有 的 
MapReduce 框架 的 复杂 度 大 大 增加 ,不 利于 系统 的 维护 和 扩展 。 

(3) 用 户 被 迫使 用 MapReduce 的 接口 来 定义 流 式 作业 ,这 使 得 用 户 程序 的 可 伸缩 性 
降低 。 

除了 MapReduce 计算 模型 之 外 ,以 Swift? 为 代表 的 工作 流 计算 模式 ,以 Pregel 为 代表 
的 图 计算 模式 ,也 都 可 以 处 理 包 含 大 规模 计算 任务 的 应 用 流程 和 图 算法 。Swift 系统 作为 
科学 工作 流 和 并 行 计算 之 间 的 桥梁 ,是 一 个 面向 大 规模 科学 和 工程 工作 流 的 快速 .可靠 的 定 
义 、 执 行 和 管理 的 并 行 化 编程 工具 。Swift 采用 结构 化 的 方法 管理 工作 流 的 定义 .调度 和 执 
行 , 它 包 含 简单 的 脚本 语言 SwiftScript,SwiftScript 可 以 用 来 简洁 地 描述 基于 数据 集 类 型 
和 和 迭代 的 复杂 并 行 计 算 , 同 时 还 可 以 对 不 同 数据 格式 的 大 规模 数据 进行 动态 的 数据 集 映 射 。 
运行 时 系统 提供 一 个 高 效 的 工作 流 引 擎 用 来 进行 调度 和 保证 负载 均衡 , 它 还 可 以 与 PBS 和 
Condor 等 资源 管理 系统 进行 交互 ,完成 任务 。 

Pregel 是 一 种 面向 图 算法 的 分 布 式 编程 框架 ,可 以 用 于 图 遍历 、 最 短路 径 ,PageRank 计 
算 等 。 它 采用 壕 代 的 计算 模型 是 ,在 每 一 轮 ,每 个 顶点 处 理 上 一 轮 收 到 的 消息 ,并 给 其 他 顶 
点 发 出 消息 ,并 更 新 自身 状态 和 拓扑 结构 (出 、 入 边 ) 等 。 


3.4.2 实时 交互 计算 


当今 的 实时 计算 一 般 都 需要 处 理 海量 数据 ,除了 要 满足 非 实时 计算 的 一 些 需 求 ( 如 计算 
结果 准确 ) 以 外 ,还 需要 能 够 实时 响应 计算 结果 ,一 般 实时 响应 时 间 的 要 求 为 秒 级 。 实 时 计 
算 一 般 可 以 分 为 以 下 两 种 应 用 场景 。 

(1) 数据 量 巨大 且 不 能 提前 计算 出 结果 ,但 要 求 对 用 户 的 响应 时 间 是 实时 的 。 该 种 情 
形 主要 用 于 特定 场合 下 的 数据 分 析 处 理 。 当 数据 量 庞大 ,同时 发 现 无 法 穷 举 所 有 可 能 条 件 
的 查询 组 合 , 或 者 大 量 穷 举 出 来 的 条 件 组 合 无 用 的 时 候 , 实 时 计算 就 可 以 发 挥 作用 。 即 将 计 
算 过 程 推迟 到 查询 阶段 进行 ,但 需要 为 用 户 提供 实时 响应 。 在 这 种 情形 下 ,也 可 以 将 一 部 分 
数据 提前 处 理 , 再 结合 实时 计算 结果 ,以 提高 处 理 效率 。 

(2) 数据 源 是 实时 的 不 间断 的 :要求 对 用 户 的 响应 时 间 也 是 实时 的 。 数 据 源 实时 不 间 
断 的 也 称 为 流 式 数据 。 所 谓 流 式 数据 是 指 将 数据 看 作 是 数据 流 的 形式 来 处 理 。 数 据 流 是 在 
时 间 分 布 和 数量 上 无 限 的 一 系列 数据 记录 的 集合 体 , 数 据 记 录 是 数据 流 的 最 小 组 成 单元 。 
例如 ,在 物 联网 领域 传感器 产生 的 数据 可 能 是 源源 不 断 的 。 对 于 流 式 处 理 系统 我 们 将 分 开 
在 3.4.3 节 具 体 介绍 。 实 时 的 数据 计算 和 分 析 可 以 动态 地 对 数据 进行 分 析 统计 ,对 于 系统 
的 状态 监控 ,调度 管理 具有 重要 的 实际 意义 。 

海量 数据 的 实时 计算 过 程 可 以 被 划分 为 以 下 三 个 阶段 : 数据 的 产生 与 收集 阶段 ,传输 
与 分 析 处 理 阶段 .存储 和 对 外 提供 服务 阶段 ,如 图 3-8 所 示 。 
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图 3-8 实时 计算 过 程 


数据 实时 采集 在 功能 上 需要 保证 可 以 完整 地 收集 到 所 有 数据 ,为 实时 应 用 提供 实时 数 
据 ; 响应 时 间 上 要 保证 实时 性 、 低 延迟 性 ; 配置 简单 ,部 署 容易 ; 系统 稳定 可 靠 等 。 目 前 , 互 
联网 企业 的 海量 数据 采集 工具 前 面 介 绍 过 ,包括 Facebook 开源 的 Scribe、LinkedIn 开源 的 
Kafka、Cloudera 开源 的 Flume 淘宝 开源 的 TimeTunnel、Hadoop 的 Chukwa 等 ,这 些 工 具 
均 可 以 满足 每 秒 数 百 MB 的 日 志 数 据 采 集 和 传输 需求 。 

数据 实时 计算 是 这 样 的 。 传 统 的 数据 操作 ,首先 将 数据 采集 并 存储 在 数据 库 管 理 系统 
(DBMS) 中 ,然后 通过 query 和 DBMS 进行 交互 ,得 到 用 户 想 要 的 答案 。 整 个 过 程 中 ,用 户 
是 主动 的 ,而 DBMS 是 被 动 的 。 但 是 ,对 于 现在 大 量 存在 的 实时 数据 ,它们 的 实时 性 强 , 数 
据 量 大 ,数据 格式 多 种 多 样 , 传 统 的 关系 型 数据 库 架 构 并 不 合适 。 新 型 的 实时 计算 架构 一 般 
都 是 采用 海量 并 行 处 理 MPP 的 分 布 式 架构 ,数据 的 存储 及 处 理会 分 配 到 大 规模 的 节点 上 
进行 ,以 满足 实时 性 的 要 求 。 在 数据 的 存储 上 , 则 采用 大 规模 分 布 式 文件 系统 ,比如 
Hadoop 的 HDFS 文件 系统 ,或 是 新 型 的 NoSQL 分 布 式 数据 库 。 

实时 查询 服务 的 实现 可 以 分 为 三 种 方式 : 全 内 存 , 直接 提供 数据 读 取 服务 ,定期 
dump 到 磁盘 或 数据 库 进 行 持久 化 ; 回 半 内 存 , 使 用 Redis?、Memcache®、MongoDB®、 
BerkeleyDB 等 数据 库 提供 数据 实时 查询 服务 ,由 这 些 系 统 进行 持久 化 操作 ; 加 全 磁盘 ,使 
用 HBase 等 以 分 布 式 文件 系统 (HDFS) 为 基础 的 NoSQL 数据 库 , 而 key-value 引擎 的 关键 
是 设计 好 key 的 分 布 。 

实时 和 交互 式 计 算 技 术 中 ,Google 的 Dremel 系统 表现 最 为 突出 。Dremel 是 Google 
的 “交互 式 * 数 据 分 析 系 统 。 可 以 组 建成 规模 上 千 的 集群 ,处 理 PB 级 别 的 数据 。 作 为 
MapReduce 的 发 起 人 , Google 开发 了 Dremel 系统 ,将 处 理 时 间 缩 短 到 秒 级 , 作为 
MapReduce 的 有 力 补充 。Dremel 作为 Google BigQuery 的 report 引擎 ,是 一 个 很 大 的 成 
功 。 和 MapReduce 一 样 ,Dremel 也 需要 和 数据 运行 在 一 起 ,将 计算 移动 到 数据 上 面 。 它 需 
要 GFS 这 样 的 文件 系统 作为 存储 层 。Dremel 支持 一 个 嵌 套 的 数据 模型 ,类 似 于 JSON。 而 
传统 的 关系 模型 ,由 于 不 可 避免 的 有 大 量 的 Join 操作 ,在 处 理 如 此 大 规模 的 数据 的 时 候 , 往 
往 是 有 心 无 力 。Dremel 同时 还 使 用 列 式 存储 ,分 析 的 时 候 , 可 以 只 扫描 需要 的 那 部 分 数据 ， 
减少 CPU 和 磁盘 的 访问 量 。 同 时 列 式 存储 是 压缩 友好 的 ,使 用 压缩 ,可 以 减少 存储 量 , 以 
便 发 挥 最 大 的 效能 。 

Spark 是 由 加 州 大 学 伯克利 分 校 AMP 实验 室 开发 的 实时 数据 分 析 系 统 , 它 采用 一 种 与 
Hadoop 相似 的 开源 集群 计算 环境 ,但 是 Spark 在 任务 调度 .工作 负载 优化 等 方面 的 设计 和 
表现 更 加 优越 。Spark 启用 了 内 存 分 布 数据 集 , 除 了 能 够 提供 交互 式 查询 外 , 它 还 可 以 优化 
迭代 工作 负载 。Spark 是 利用 Scala 语言 实现 的 , 它 将 Scala 用 作 其 应 用 程序 框架 。Spark 


@® http://redis. io/ 
@ http://memcached. org/ 
图 https://www.mongodb. org/ 
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和 Scala 能 够 紧密 集成 ,其 中 的 Scala 可 以 像 操 作 本 地 集合 对 象 一 样 轻松 地 操作 分 布 式 数据 
集 。 创 建 Spark 可 以 支持 分 布 式 数据 集 上 的 迭代 作业 ,而 且 支 持 对 数据 的 快速 统计 分 析 , 是 
对 Hadoop 的 有 效 补充 。 它 也 可 以 在 Hadoop 文件 系统 中 并 行 运 行 ,通过 名 为 Mesos 的 第 
三 方 集群 框架 支持 此 功能 。Spark 可 用 来 构建 大 型 的 、 低 延迟 性 的 数据 分 析 应 用 程序 。 

由 Cloudera 公司 最 近 发 布 的 Inpala 系统 .类似 于 Google 的 Dremel 系统 ,是 一 个 有 效 
的 大 数据 实时 查询 工具 。Impala 能 在 HDFS 或 HBase 上 提供 快速 .交互 式 SQL 查询 , 它 除 
了 使 用 统一 的 存储 平台 之 外 ,还 使 用 了 与 Hive 相同 的 Metastore 及 SQL 语法 等 ,为 批 处 理 
和 实时 查询 提供 了 一 个 统一 的 平台 。 


3.4.3 流 计算 


在 很 多 实时 应 用 场景 中 ,比如 实时 交易 系统 、 实 时 诈骗 分 析 、 实 时 广告 推送 、 实 时 监控 、 
社交 网 络 实时 分 析 等 ,数据 量 大 ,实时 性 要 求 高 ,而 且 数 据 源 是 实时 不 间断 的 。 新 到 的 数据 
必须 马上 处 理 完 ,不 然后 续 的 数据 就 会 堆积 起 来 ,永远 也 处 理 不 完 。 反 应 时 间 通 常 要 求 在 秒 
级 以 下 ,甚至 是 毫秒 级 ,这 就 需要 一 个 高 度 可 扩展 的 流 式 计算 解决 方案 。 

流 计算 就 是 为 实时 连续 的 数据 类 型 而 准备 的 。 在 数据 不 断 变化 的 运动 过 程 中 实时 地 进 
行 分 析 ,捕捉 到 可 能 对 用 户 有 用 的 信息 ,并 把 结果 发 送出 去 。 在 整个 过 程 中 ,数据 分 析 处 理 
系统 是 主动 的 ,而 用 户 却 是 处 于 被 动 接收 的 状态 ,如 图 3-9 所 示 。 
































图 3-9 流 计算 过 程 


传统 的 流 式 计算 系统 ,一 般 是 基于 事件 机 制 ,所 处 理 的 数据 量 也 不 大 。 新 型 的 流 处 理 技 
术 , 如 Yahoo 的 S4, 主 要 解决 的 是 高 数据 率 和 大 数据 量 的 流 式 处 理 。 

S4 是 一 个 通用 的 、 分 布 式 的 .可 扩展 的 、 部 分 容错 的 、 可 插 拔 的 平台 。 开 发 者 可 以 很 容 
易 地 在 其 上 开发 面向 外 界 不 间断 流 数 据 处 理 的 应 用 。 数 据 事件 被 分 类 路 由 到 处 理 单元 
(Processing Elements,PE) ,处 理 单元 分 析 这 些 事件 ,并 做 如 下 的 处 理 。 

(1) 发 出 一 个 或 多 个 可 能 被 其 他 PE 处 理 的 事件 ; 

(2) 发 布 结果 。 

S4 的 设计 主要 由 大 规模 应 用 在 生产 环境 中 的 数据 采集 和 机 器 学 习 所 驱动 。 其 主要 特 
点 如 下 。 

(1) 提供 一 种 简单 的 编程 接口 来 处 理 数 据 流 ; 

(2) 设计 一 个 在 普通 硬件 之 上 可 扩展 的 高 可 用 集群 ; 

(3) 在 每 个 处 理 节点 使 用 本 地 内 存 , 避 人 免 磁 盘 1/O 瓶颈 达到 最 小 ; 

(4) 使 用 一 个 去 中 心 的 ,对 等 架构 ,所 有 节点 提供 相同 的 功能 和 职责 ,没有 担负 特殊 责 
任 的 中 心 节点 ,这 大 大 简化 了 部 署 和 维护 ; 

(5) 使 用 可 揪 拔 的 架构 ,使 设计 尽 可 能 的 既 通用 又 可 定制 化 ; 
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(6) 友好 的 设计 理念 ,易于 编程 ,具有 灵活 的 弹性 。 

S4 的 设计 和 IBM 的 流 处 理 核心 SPC 中 间 件 有 很 多 相同 的 特性 。 两 个 系统 都 是 为 了 大 
数据 量 设 计 的 ,都 具有 能 够 使 用 用 户 定义 的 操作 在 持续 数据 流 上 采集 信息 的 能 力 。 两 者 主 
要 的 区 别 在 架构 的 设计 上 ,SPC 的 设计 源 于 Publish/Subscribe 模式 ,而 S4 的 设计 是 
MapReduce 和 Actor 模式 的 结合 。Yahoo 相信 因为 其 对 等 的 结构 ,S4 的 设计 非常 简单 。 集 
群 中 的 所 有 节点 都 是 等 同 的 ,没有 中 心 控制 。 

SPC 是 一 种 分 布 式 的 流 处 理 中 间 件 ,用 于 支持 从 大 规模 的 数据 流 中 抽取 信息 的 应 用 。 
SPC 包含 为 实现 分 布 式 的 ` 动 态 的 .可 扩展 的 应 用 而 需要 的 编程 模式 和 开发 环境 ,其 编程 模 
式 包 括 用 于 申明 和 创建 处 理 单元 (PE) 的 API, 以 及 组 装 、 测 试 .调试 和 部 署 应 用 的 工具 集 。 
与 其 他 流 处 理 中 间 件 不 同 的 是 ,SPC 除了 支持 关系 型 的 操作 符 外 ,还 支持 非 关 系 型 的 操作 
符 和 用 户 自 定义 函数 。 

Stormg 是 Twitter 开发 的 一 个 类 似 于 Hadoop 的 实时 数据 处 理 框架 ,这 种 高 可 拓展 
性 ,使 得 能 处 理 高 频数 据 和 大 规模 的 实时 流 数据 计算 解决 方案 应 用 于 实时 搜索 、 高 频 交易 和 
社交 网 络 上 。Storm 有 以 下 三 大 作用 领域 。 

(1) 信息 流 处 理 (Stream Processing) 。Storm 可 以 用 来 实时 处 理 新 数据 和 更 新 数据 库 ， 
兼 具 容错 性 和 可 扩展 性 。 

(2) 连续 计算 (Continuous Computation) 。Storm 可 以 进行 连续 查询 并 把 结果 即时 反 
馈 给 客户 ,比如 将 Twitter 上 的 热门 话题 发 送 到 客户 端 。 

(3) 分 布 式 远程 过 程 调用 (Distributed RPC) 。Storm 可 以 用 来 并 行 处 理 密集 查询 ， 
Storm 的 拓扑 结构 是 一 个 等 待 调用 信息 的 分 布 函 数 , 当 它 收 到 一 条 调用 信息 后 ,会 对 查询 内 
容 进行 计算 ,并 返回 查询 结果 。 

一 个 Storm 集群 和 Hadoop 集群 表面 上 看 很 类 似 , 但 是 Hadoop 上 运行 的 是 
MapReduce 任务 ,而 在 Storm 上 运行 的 是 拓扑 ,一 个 拓扑 实际 上 定义 的 是 一 个 消息 流 的 处 
理 的 过 程 ,简单 来 说 ,就 是 从 一 些 数 据 源 ( 叫 做 Spout) 产 生 的 消息 流 , 经 过 一 些 处 理 单元 ( 叫 
做 Bolt) 加 工 后 产生 新 的 消息 流 , 这 些 消息 流 又 接着 被 另外 的 加 工 单元 处 理 ,再 产生 其 他 的 
消息 流 。 这 些 数据 源 (Spouts) 和 加 工 单元 (Bolts) 所 组 成 的 整个 处 理 架 构 就 是 一 个 拓扑 。 

消息 源 Spout 是 Storm 里 面 一 个 Topology 里 面 的 消息 生产 者 ,如 图 3-10 所 示 。 一 般 
来 说 消息 源 会 从 一 个 外 部 源 读 取 数据 并 且 向 Topology 里 面 发 出 消息 ,消息 源 可 以 发 射 多 
条 消息 流 Stream。 所 有 的 消息 处 理 逻 辑 被 封装 在 Bolts 里 面 。Bolts 可 以 做 很 多 事情 : 过 
滤 , 聚 合 ,查询 数据 库 等 。Bolts 可 以 简单 地 做 消息 流 的 传递 。 复 杂 的 消息 流 处 理 往往 需要 
很 多 步骤 ,从 而 也 就 需要 经 过 很 多 Bolts。 一 个 Bolt 也 可 以 继续 发 射出 多 条 消息 流 , 被 其 他 
Bolts 继续 处 理 。 

比如 需要 设计 一 个 Topology, 来 对 一 个 句子 里 的 单词 进行 词 频 统计 ,那么 整个 
Topology 看 起 来 如 图 3-11 所 示 。 其 中 包含 一 个 Spout ,用 来 从 Kestrel 队列 中 读 取 一 个 句 
子 , 把 它 输出 成 一 个 消息 ,发 送 给 第 一 个 Bolt, 进 行 单词 切 分 。 然 后 第 二 个 Bolt 汇总 每 个 单 
词 出 现 的 次 数 ,这 样 整体 上 一 个 Spout 加 上 两 个 Bolts 就 构成 了 一 个 单词 词 频 统 计 的 拓扑 。 





加 ”http://storm-project. net/ 
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图 3-10 Storm 的 Topology 由 Spouts 和 Bolts 组 成 


KestrelSpout ["sentence"] 一 一 | wa ["word"] -一 | oe ["word", "count"]—— 


图 3-11 用 于 词 频 统 计 的 Topology 示例 


3.5 数据 交互 展示 


计算 结果 需要 以 简单 直观 的 方式 展现 出 来 ,才能 最 终 为 用 户 所 理解 和 使 用 ,形成 有 效 的 
统计 、 分 析 、 预 测 及 决策 ,应 用 到 生产 实践 和 企业 运营 中 ,因此 大 数据 的 展现 技术 ,以 及 数据 
的 交互 技术 在 大 数据 全 局 中 也 占据 重要 的 位 置 。 

Excel 形式 的 表格 和 图 形 化 展示 方式 是 人 们 熟知 和 使 用 已 久 的 数据 展示 方式 ,也 为 日 
常 的 简单 数据 应 用 提供 了 极 大 的 方便 。 华 尔 街 的 很 多 交易 员 还 都 依赖 Excel 和 他 们 很 多 年 
积累 和 总 结 出 来 的 公式 来 进行 大 宗 的 股票 交易 ,而 微软 公司 和 一 些 创业 者 也 看 到 市 场 潜力 ， 
在 开发 以 Excel 为 展示 和 交互 方式 ,结合 Hadoop 等 技术 的 大 数据 处 理 平台 。 

人 脑 对 图 形 的 理解 和 处 理 速度 大 大 高 于 文字 。 因 此 ,通过 视觉 化 呈现 数据 ,可 以 深入 展 
现 数据 中 的 潜在 的 或 复杂 的 模式 和 关系 。 随 着 大 数据 的 兴起 ,也 涌现 了 很 多 新 型 的 数据 展 
现 和 交互 方式 ,以 及 专注 于 这 方面 的 一 些 创业 公司 。 这 些 新 型 方式 包括 交互 式 图 表 , 可 以 在 
网 页 上 呈现 ,并 支持 交互 ,可 以 操作 、 控 制图 标 ,进行 动画 演示 。 另 外 ,交互 式 地 图 应 用 如 
Google 地 图 ,可 以 动态 标记 、 生 成 路 线 、 倒 加 全 景 航拍 图 等 ,由 于 其 开放 的 API 接口 ,可 以 与 
很 多 用 户 地 图 和 基于 位 置 的 服务 应 用 结合 ,因而 获得 了 广泛 的 应 用 。Google Chart Tools 
也 给 网 站 数据 可 视 化 提供 了 很 多 种 灵活 的 方式 。 从 简单 的 线 图 、Geo 图 、Gauges( 测 量 仪 )， 
到 复杂 的 树 图 ,Google Chart Tools 提供 了 大 量 设计 优良 的 图 表 工 具 。 

大 数据 时 代 也 诞生 了 很 多 新 兴 的 大 数据 可 视 化 技术 及 相应 的 创业 公司 ,能 够 将 数据 所 
殖 含 的 信息 与 可 视 化 展示 有 机 地 结合 起 来 的 “信息 图 "方式 ,目前 大 行 其 道 。 诞 生 于 斯 坦 福 





的 
大 学 的 大 数据 创业 公司 Tableau 能 够 将 数据 运算 与 美观 的 图 表 完 美 地 结合 在 一 起 。 
Tableau 的 设计 与 实现 理念 是 : 界面 上 的 数据 越 容 易 操 控 , 公 司 对 自己 所 在 业务 领域 里 的 所 
作 所 为 到 底 是 正确 还 是 错误 ,就 能 了 解 得 越 透彻 。 快 速 处 理 ,便捷 共享 ,是 Tableau 的 另 一 
大 特性 ,这 将 使 得 用 户 使 用 数据 的 积极 性 大 大 增加 。 另 一 家 大 数据 可 视 化 创业 公司 
Visually 以 丰富 的 信息 图 资源 而 著称 它 是 一 个 社会 化 的 信息 图 创作 分 享 平台 。 很 多 用 户 
乐意 把 自己 制作 的 信息 图 上 传 到 网 站 中 与 他 人 分 享 ,信息 图 极 大 地 刺激 视觉 表现 ,促进 用 户 
间 相 互 学 习 、 讨 论 。 

此 外 ,3D 数字 化 泻 染 技术 也 被 广泛 地 应 用 在 很 多 领域 ,如 数字 城市 .数字 园区 、 模 拟 与 
仿真 .设计 制造 等 ,具备 很 高 的 直观 操作 性 。 现 代 的 虚拟 现实 VR 和 增强 现实 AR 技术 通过 
计算 机 技术 ,将 虚拟 的 信息 应 用 到 真实 世界 ,真实 的 环境 和 虚拟 的 物体 实时 地 到 加 到 同一 个 
画面 或 空间 同时 存在 。 结 合 虚拟 3D 的 数字 模型 和 真实 生活 中 的 场景 ,提供 了 更 好 的 现场 
感 和 互动 性 。 通 过 VR/AR 技术 ,用 户 可 以 和 虚拟 的 物体 进行 交互 ,如 试 戴 虚拟 眼镜 、 试 穿 
虚拟 衣服 、. 驾 驶 模拟 飞行 器 等 。 在 德国 ,工程 技术 人 员 在 进行 机 械 安 装 、 维 修 、 调 试 时 , 通 
过 头盔 显示 器 ,可 以 将 原来 不 能 呈现 的 机 器 内 部 结构 ,以 及 它 的 相关 信息 、 数 据 完全 呈现 
出 来 。 

现代 的 体感 技术 ,如 微软 的 Kinect 以 及 Leap 公司 的 Leap Motion 体感 控制 器 ,能 够 
检测 和 感知 到 人 体 的 动作 及 手势 ,进而 将 动作 转化 为 对 计算 机 及 系统 的 控制 ,使 人 们 摆 
脱 了 键盘 鼠标、 遥控 器 等 传统 交互 设备 的 束缚 ,直接 用 身体 和 手势 来 与 计算 机 和 数据 交 
互 。 当 今 热门 的 可 穿戴 式 技术 ,如 Google 眼镜 , 则 有 机 地 结合 了 大 数据 技术 .增强 现实 及 
体感 技术 。 随 着 数据 的 完善 和 技术 的 成 熟 ,我 们 可 以 实时 地 感知 我 们 周围 的 现实 环境 ， 
并 且 通 过 大 数据 搜索 .计算 ,实现 对 周围 的 建筑 商家、 人群 .物体 的 实时 识别 和 数据 获 
取 , 并 倒 加 投射 在 我 们 的 视网膜 上 ,这 样 可 以 实时 地 帮助 我 们 工作 、 购 物 、 休 闲 等 ,提供 极 
大 的 便利 。 


3.5.1 数据 可 视 化 基础 


数据 可 视 化 主要 旨 在 借助 于 图 形 化 手段 ,清晰 有 效 地 传达 与 沟通 信息 。 但 是 ,这 并 不 就 
意味 着 ,数据 可 视 化 就 一 定 因为 要 实现 其 功能 用 途 而 令 人 感到 枯燥 乏味 ,或 者 是 为 了 看 上 去 
绚丽 多 彩 而 显得 极端 复杂 。 为 了 有 效 地 传达 思想 观念 ,美学 形式 与 功能 需要 齐头并进 ,通过 
直观 地 传达 关键 的 方面 与 特征 ,从 而 实现 对 于 相当 稀 玖 而 又 复杂 的 数据 集 的 深入 洞察 。 然 
而 ,设计 人 员 往 往 并 不 能 很 好 地 把 握 设计 与 功能 之 间 的 平衡 ,从 而 创造 出 华而不实 的 数据 可 
视 化 形式 ,无 法 达到 其 主要 目的 ,也 就 是 传达 与 沟通 信息 。 

数据 可 视 化 与 信息 图 形 .信息 可 视 化 .科学 可 视 化 以 及 统计 图 形 密切 相关 。 当 前 ,在 研 
究 、 教 学 和 开发 领域 ,数据 可 视 化 乃 是 一 个 极为 活跃 而 又 关键 的 方面 ,。“ 数 据 可 视 化 ”这 条 术 
语 实现 了 成 熟 的 科学 可 视 化 领域 与 较 年 轻 的 信息 可 视 化 领域 的 统一 。 

数据 可 视 化 领域 的 起 源 可 以 追溯 到 20 世纪 50 年 代 计 算 机 图 形 学 的 早期 。 当 时 ,人 们 
利用 计算 机 创建 出 了 首 批 图 形 图 表 。1987 年 ,由 布鲁斯 . 麦 考 梅 克 、 汤 姆 斯 。 蒂 凡 提 和 珀 
克 辛 ， 布 朗 所 编写 的 美国 国家 科学 基金 会 报告 Visualization in Scientific Computing( 意 
为 “科学 计算 之 中 的 可 视 化 ”) ,对 于 这 一 领域 产生 了 大 幅度 的 促进 和 刺激 。 这 份 报告 之 中 强 
调 了 新 的 基于 计算 机 的 可 视 化 技术 方法 的 必要 性 。 随 着 计算 机 运算 能 力 的 迅速 提升 ,人 们 
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大 数 棋 忆 雪 据 莹 理 疏 于 所 入 
创建 了 规模 越 来 越 大 ,复杂 程度 越 来 越 高 的 数值 模型 ,从 而 造就 了 形形色色 体积 庞大 的 数值 
型 数据 集 。 同 时 ,人 们 不 但 利用 医学 扫描 仪 和 显微镜 之 类 的 数据 采集 设备 产生 大 型 的 数据 
集 , 而 且 还 利用 可 以 保存 文本 、 数 值 和 多 媒体 信息 的 大 型 数据 库 来 收集 数据 。 因 而 ,就 需要 
高 级 的 计算 机 图 形 学 技术 与 方法 来 处 理 和 可 视 化 这 些 规模 庞大 的 数据 集 。 

短语 “Visualization in Scientific Computing”( 意 为 “科学 计算 之 中 的 可 视 化 ”) 后 来 变 成 
了 “Scientific Visualization”( 即 “科学 可 视 化 ”)， 

而 前 者 最 初 指 的 是 作为 科学 计算 之 组 成 部 分 的 可 视 化 ,也 就 是 科学 与 工程 实践 当中 对 
于 计算 机 建 模 和 模拟 的 运用 。 更 近 一 些 的 时 候 ,可 视 化 也 日 益 尤 为 关注 数据 ,包括 那些 来 自 
商业 、 财 务 ,\ 行 政 管理 ,数字 媒体 等 方面 的 大 型 异 质 性 数据 集合 。20 世纪 90 年 代 初 期 ,人 们 
发 起 了 一 个 新 的 称 为 “信息 可 视 化 ”的 研究 领域 , 旨 在 为 许多 应 用 领域 之 中 对 于 抽象 的 异 质 
性 数据 集 的 分 析 工 作 提 供 支持 。 因 此 ,目前 人 们 正在 逐渐 接受 这 个 同时 涵盖 科学 可 视 化 与 
信息 可 视 化 领域 的 新 生 术 语 “ 数 据 可 视 化 ”。 

自 那 时 起 ,数据 可 视 化 就 是 一 个 处 于 不 断 演 变 之 中 的 概念 ,其 边界 在 不 断 地 扩大 ; 因 
而 ,最 好 是 对 其 加 以 宽泛 的 定义 。 数 据 可 视 化 指 的 是 技术 上 较为 高 级 的 技术 方法 ,而 这 些 技 
术 方 法 允许 利用 图 形 ,图像 处 理 .计算机 视觉 以 及 用 户 界面 ,通过 表达 、 建 模 以 及 对 立体 、 表 
面 、 属 性 以 及 动画 的 显示 ,对 数据 加 以 可 视 化 解释 。 与 立体 建 模 之 类 的 特殊 技术 方法 相 比 ， 
数据 可 视 化 所 涵盖 的 技术 方法 要 广泛 得 多 。 


3.5.2 数据 可 视 化 模式 


数据 可 视 化 分 为 科学 可 视 化 和 信息 可 视 化 这 两 个 主要 分 支 。 

科学 可 视 化 ,处 理科 学 数据 ,面向 科学 和 工程 领域 的 科学 可 视 化 ,研究 带 有 空间 坐标 和 
几何 信息 的 三 维 空间 测量 数据 .计算 模拟 数据 和 医疗 影像 数据 等 ,重点 探索 如 何 有 效 地 呈现 
数据 中 几何 ,拓扑 和 形状 特征 。 信 息 可 视 化 ,处 理 对 象 是 非 结 构 化 ,. 非 几何 的 抽象 数据 ,如 人 金 
融 交易 .社交 网 络 和 文本 数据 ,其 核心 挑战 是 如 何 针对 大 尺度 高 维 数据 减少 视觉 混淆 对 有 用 
信息 的 干扰 。 

1. 科学 可 视 化 

面向 的 领域 主要 是 自然 科学 ,如 物理 、 化 学 、 气 象 气候 .航空 航天 、 医 学 .生物 学 等 各 个 学 
科 , 这 些 学 科 需 要 对 数据 和 模型 进行 解释 ,操作 与 处 理 , 旨 在 寻找 其 中 的 模式 、 特 点 、 关 系 以 
及 异常 情况 。 

标量 场 可 视 化 。 标 量 指 单个 数值 , 即 在 每 个 记录 的 数据 点 上 有 一 个 单一 的 值 ,标量 场 指 
二 维 、 三 维 或 四 维 空间 中 每 个 采样 处 都 有 一 个 标量 值 的 数据 场 。 可 视 化 数据 场 fFCz,y'z) 的 
标准 做 法 有 三 种 : @ 将 数值 直接 映 为 颜色 或 透明 度 , 如 用 颜色 表达 地 球 表面 的 温度 分 布 ; 
@ 根 据 需 要 抽取 并 连接 满足 /(z,y,z)==c 的 点 集 ,并 连接 为 线 或 面 , 称 为 等 值 线 或 等 值 面 
方法 ,如 地 图 中 的 等 高 线 , 标 准 的 算法 有 移动 四 边 形 或 移动 立方 体 ; @ 将 三 维 标量 数据 场 看 
成 能 产生 、 传 输 和 吸收 光 的 媒介 ,光源 透 过 数据 场 后 形成 半 透 明 影 像 . 称 为 直接 体 绘制 方法 ， 
这 种 方法 可 以 以 透明 层 全 的 方式 显示 内 部 结构 ,为 观察 三 维 数据 场 全 貌 提供 了 极 好 的 交互 
浏览 工具 。 

向 量 场 可 视 化 。 向 量 场 在 每 个 采样 点 处 都 是 一 个 向 量 ( 一 维 数据 组 )。 向 量 代表 某 个 方 
向 或 趋势 ,例如 风向 等 。 向 量 场 可 视 化 主要 关注 点 是 其 中 蕴含 的 流体 模式 和 关键 特征 区 域 。 


| 
在 实际 应 用 中 ,由 于 二 维 或 三 维 流 场 是 最 常见 的 向 量 场 ,所 以 流 场 可 视 化 是 向 量 场 可 视 化 中 
最 重要 的 组 成 部 分 。 除 了 通过 拓扑 或 几何 方法 计算 向 量 场 的 特征 点 、 特 征 线 或 特征 区 域外 ， 
对 向 量 场 直接 进行 可 视 化 的 方法 包括 以 下 三 类 。 

(1) 粒子 对 流 法 ,其 关键 思想 是 模拟 粒子 在 向 量 场 中 以 某 种 方式 流动 ,获得 的 几何 轨迹 
可 以 反映 向 量 场 的 流体 模式 。 这 类 方法 包括 流 线 、 流 面 、 流 体 、 迹 线 和 脉 线 等 。 

(2) 将 向 量 场 转换 为 一 帧 或 多 帧 的 纹理 图 像 ,为 观察 者 提供 直观 的 影像 展示 。 标 准 的 
做 法 有 随机 噪声 纹理 、 线 积分 卷 积 (LIC) 等 。 

(3) 采用 简化 易 懂 的 图 标 编码 单个 或 简化 后 的 向 量 信息 ,可 提供 详细 信息 的 查询 与 计 
算 , 标 准 做 法 有 线条 、 箭 头 和 方向 标志 符 等 。 

张 量 场 可 视 化 。 方 法 分 为 基于 纹理 、 几 何 和 拓扑 三 类 。 基 于 纹理 的 方法 ,将 张 量 场 转换 
为 静态 图 像 或 动态 图 像 序列 ,图 释 张 量 场 的 全 局 属性 ,其 思想 是 将 张 量 场 简化 为 向 量 场 进而 
采用 线性 积分 法 ,噪声 纹理 法 等 方法 显示 。 基 于 几何 的 方法 显示 地 生成 刻画 某 类 张 量 场 的 
属性 的 几何 表达 ,其 中 ,图 标 法 采用 某 种 几何 形式 表达 单个 张 量 ,如 椭 球 和 超 二 次 曲面 ; 超 
流 线 法 将 张 量 转 换 为 向 量 ,再 沿 主 特征 方向 进行 积分 ,形成 流 线 、 流 面 或 流体 。 基 于 拓扑 的 
方法 计算 张 量 场 的 拓扑 特征 (如 关键 点 、 奇 点 、 灭 点 、 分 叉 点 和 退化 线 等 ) ,依次 将 感 兴趣 区 域 
部 分 分 为 具有 相同 属性 的 子 区 域 , 并 建立 对 应 的 图 结构 ,实现 拓扑 简化 .拓扑 跟踪 和 拓扑 显 
示 , 基 于 拓扑 的 方法 可 以 有 效 地 生成 多 变量 场 的 定性 结构 ,快速 构造 全 局 流 场 结构 ,特别 适 
合 于 数值 模拟 或 实验 模拟 生成 的 大 尺度 数据 。 

2. 信息 可 视 化 

信息 可 视 化 处 理 的 对 象 是 抽象 的 、 非 结构 化 数据 集 (如 文本 、 图 表 、 层 次 结构 \ 地 图 、 软 
件 、 复 杂 系 统 等 )。 与 科学 可 视 化 相 比 ,信息 可 视 化 更 关注 抽象 、 高 维 数据 。 此 类 数据 通常 
不 具有 空间 中 位 置 的 属性 ,因此 要 根据 特定 数据 分 析 的 需求 ,决定 数据 元 素 在 空间 的 布 
局 。 因 为 信息 可 视 化 的 方法 与 所 针对 的 数据 类 型 紧密 相关 ,所 以 通常 按 数据 类 型 分 为 如 
下 几 类 。 

(1) 时 空 数据 可 视 分 析 。 

(2) 层次 与 网 络 结构 数据 可 视 化 。 

(3) 文本 和 跨 媒体 数据 可 视 化 。 

(4) 多 变量 数据 可 视 化 。 


3.5.3 数据 可 视 化 工具 

1. 可 视 化 基础 工具 

(1) D3.js。D3 是 一 个 用 动态 图 形 显示 数据 的 JavaScript 库 ,一 个 数据 可 视 化 的 工具 ， 
如 图 3-12 所 示 。 

D3 兼容 W3C 标准 ,并 且 利 用 广泛 实现 的 SVG、JavaScript 和 CSS 标准 。 它 是 早期 的 
Protovis 框架 的 继承 者 。 与 其 他 的 类 库 相 比 ,D3 对 视图 结果 有 很 大 的 可 控 性 。 

D3 可 以 让 用 户 随心 所 欲 地 把 数据 绑 定 到 一 个 文档 对 象 模型 (DOM) ,然后 应 用 数据 驱 
动 转换 到 文档 中 。 例 如 ,可 以 使 用 D3 从 数字 数组 生成 一 个 HTML 表 。 或 者 ,使 用 相同 的 
数据 来 创建 平滑 的 过 渡 和 互动 的 交互 式 SVG 条 形 图 。 

D3 不 是 一 个 整体 框架 ,没有 去 尝试 涵盖 所 有 功能 。 相 反 .D3 致力 于 解决 如 何 基 于 数据 
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图 3-12 D3 可 视 化 工具 


的 文档 高 效 操作 的 问题 ,这 使 得 D3 具有 非常 高 的 灵活 性 。D3 非常 快 ,而 且 开 销 很 小 。D3 
支持 大 型 数据 的 处 理 ,提供 动态 交互 。 

(2) ECharts。ECharts 是 一 个 纯 JavaScript 的 图 表 库 ,可 以 流畅 地 运行 在 PC 和 移动 
设备 上 ,兼容 当前 绝 大 部 分 浏览 器 (IE8/9/10/11,.Chrome, Firefox,Safari 等 ) .底层 依赖 轻 
量 级 的 Canvas 类 库 ZRender ,提供 直观 .生动 .可 交互 、 可 高 度 个 性 化 定制 的 数据 可 视 化 图 
表 , 如 图 3-13 所 示 。 
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图 3-13 Echarts 图 表 库 


ECharts 提供 了 常规 的 折线 图 、 柱 状 图 、 散 点 图 \、 饼 图 、K 线 图 ,用 于 统计 的 盒 形 图 ,用 于 
地 理 数 据 可 视 化 的 地 图 、 热 力图 、 线 图 ,用 于 关系 数据 可 视 化 的 关系 图 、treemap ,多 维 数据 可 
视 化 的 平行 坐标 ,还 有 用 于 BI 的 漏斗 图 、 仪 表盘 ,并 且 支 持 图 与 图 之 间 的 混搭 。 

用 户 可 以 在 下 载 界面 下 载 包含 所 有 图 表 的 构建 文件 ,如 果 只 是 需要 其 中 一 两 个 图 表 , 又 
嫌 包 含 所 有 图 表 的 构件 文件 太 大 ,也 可 以 在 在 线 构件 中 选择 需要 的 图 表 类 型 后 自 定义 构件 。 

ECharts 3 开始 独立 出 了 “坐标 系 ” 的 概念 ,支持 了 直角 坐标 系 (catesian, 同 grid)、 极 坐 
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标 系 (polar) 、 地 理 坐 标 系 (geo)。 图 表 可 以 跨 坐 标 系 存在 ,例如 , 折 、 柱 、 散 点 等 图 可 以 放 在 
直角 坐标 系 上 ,也 可 以 放 在 极 坐标 系 上 ,甚至 可 以 放 在 地 理 坐标 系 中 。 

同时 ,EChart 针对 移动 端 进行 了 优化 ,提供 深度 的 交互 式 探 索 ,借助 Canvas 的 能 力 ， 
ECharts 在 散 点 图 中 能 够 轻松 展现 上 万 甚至 超过 十 万 的 数据 。ECharts 3 开始 加 强 了 对 多 
维 数据 的 支持 。 除 了 加 入 了 平行 坐标 等 常见 的 多 维 数据 可 视 化 工具 外 ,对 于 传统 的 散 点 图 
等 ,传人 的 数据 也 可 以 是 多 个 维度 的 。 配 合 视觉 映射 组 件 visualMap 提供 的 丰富 的 视觉 编 
码 ,能 够 将 不 同 维度 的 数据 映射 到 颜色 、 大 小 、 透 明度 、 明 上 暗 度 等 不 同 的 视觉 通道 。ECharts 
由 数据 驱动 ,数据 的 改变 驱动 图 表 展现 的 改变 。 因 此 动态 数据 的 实现 也 变 得 异常 简单 ,只 需 
要 获取 数据 , 填 人 数据 ,ECharts 会 找到 两 组 数据 之 间 的 差异 然后 通过 合适 的 动画 去 表现 数 
据 的 变化 。 配 合 timeline 组 件 能 够 在 更 高 的 时 间 维 度 上 去 表现 数据 的 信息 。 

2. 商用 可 视 化 软件 一 一 Tableau 

Tableau 公司 将 数据 运算 与 美观 的 图 表 完美 地 嫁接 在 一 起 ,如 图 3-14 和 图 3-15 所 示 。 
它 的 程序 很 容易 上 手 ,各 公司 可 以 用 它 将 大 量 数据 拖 放 到 数字 “画布 "上 ,转眼 间 就 能 创建 好 
各 种 图 表 。 这 一 软件 的 理念 是 ,界面 上 的 数据 越 容易 操控 ,公司 对 自己 在 所 在 业务 领域 里 的 
所 作 所 为 到 底 是 正确 还 是 错误 ,就 能 了 解 得 越 透彻 。 
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图 3-14 Tableau 可 视 化 实例 


Tableau 目前 有 6 大 软件 产品 : Tableau Desktop、Tableau Server、Tableau Online、 
Tableau Mobile .Tableau Public 以 及 Tableau Reader。 

Tableau 比 现 有 解决 方案 快 10 一 100 倍 。 它 根据 人 的 思维 方式 设计 ,在 画布 上 拖 放 ,无 
论 数 据 是 位 于 电子 表格 中 .SQL 数据 库 中 .Hadoop 中 还 是 在 云端 ,都 可 以 连接 到 任何 数据 ; 
一 键 即 可 访问 大 数据 ; 无 须 编 写 代码 即 可 合并 不 同 的 数据 源 。 
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图 3-15 ”Tableau 可 视 化 案例 
3.6 大 数据 应 用 


大 数据 在 过 去 几 年 得 到 了 全 社会 的 关注 和 快速 的 发 展 ,几乎 在 每 个 行业 都 可 以 见 到 大 
数据 应 用 的 影子 。 大 数据 的 应 用 范围 越 来 越 广 ,应 用 的 行业 也 越 来 越 多 ,我 们 几乎 每 天 都 可 
以 看 到 大 数据 的 一 些 新 奇 应 用 ,大 数据 的 价值 也 已 经 体现 在 方方面面 。 大 数据 目前 较 多 的 
应 用 领域 主要 有 互联 网 ,金融 \ 医 疗 、 环 保 、 工 业 制 造 、 教 育 、 政 府 等 行业 ,应 用 的 环境 也 不 尽 
相同 ,具体 应 用 场景 介绍 详 见 2. 3 节 。 如 图 3-16 所 示 是 大 数据 应 用 架构 图 。 
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图 3-16 大 数据 应 用 架构 图 
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3.7 运营 管理 


大 数据 平台 在 完成 数据 的 采集 、 存 储 、 处 理 、 展 示 和 应 用 之 外 ,其 自身 的 运营 管理 也 非常 
重要 ,大 数据 平台 的 运营 管理 主要 包括 以 下 几 个 方面 。 

(1) 监控 : 对 平台 的 硬件 ,软件 、 网 络 、 服 务 及 应 用 进行 实时 监控 。 

(2) 告警 : 基于 监控 信息 及 管理 设置 , 当 出 现 影响 平台 运营 及 服务 的 情况 发 生 时 ,能 够 
进行 故障 告警 。 

(3) 备份 : 对 平台 上 的 重要 数据 及 状态 进行 备份 。 

(4) 恢复 : 基于 备份 信息 进行 数据 及 状态 恢复 。 

(5) 优化 : 基于 平台 配置 及 平台 的 运行 状况 ,对 平台 的 软件 ,硬件 网络、 服务 及 应 用 进 
行 优化 。 


3.8 安全 管理 


大 数据 平台 在 给 政府 ,企业 、 社 会 以 及 个 人 用 户 带 来 极 大 便利 的 同时 ,也 促 生 了 不 同 于 
以 往 的 安全 问题 和 威胁 。 在 传统 的 安全 防护 体系 中 ,防火 墙 ?起 着 至 关 重 要 的 作用 。 防 火 
墙 是 一 种 形象 的 说 法 ,其 实 它 是 一 种 计算 机 硬件 和 软件 的 组 合 , 在 内 部 网 络 与 外 部 网 络 之 间 
建立 起 一 个 安全 网 关 , 从 而 保护 内 部 网 络 免 受 外 部 非法 用 户 的 侵入 。 然 而 云 计算 架构 很 多 
时 候 是 为 多 租户 服务 的 ,很 多 不 同 用 户 的 应 用 都 运行 在 同一 云 数据 中 心 内 部 ,这 就 打破 了 传 
统 的 安全 体系 中 的 内 外 之 分 。 作 为 企业 和 用 户 来 说 ,不 仅 要 防范 来 自 数据 中 心 外 部 的 攻击 ， 
还 要 提防 云 服 务 提供 商 ,以 及 潜藏 在 云 数据 中 心 内 部 的 其 他 别有用心 的 用 户 。 同 时 云 计算 

台 有 大 量 的 计算 集群 ,如 果 被 黑客 控制 ,可 以 发 动 进行 大 规模 的 非法 计算 或 大 规模 的 攻击 
行为 ,比如 利用 这 些 服务 器 暴力 破解 政府 重要 部 门 的 密码 等 。 同 时 ,大 数据 平台 储存 了 大 量 
有 价值 的 信息 ,容易 为 不 法 分 子 所 垂 泛 , 一 旦 遭 到 入 侵 , 损 失 巨 大 ,对 数据 的 安全 保障 也 至 关 
重要 。 

大 数据 平台 的 安全 管理 ,需要 从 以 下 几 方 面 着 手 。 

(1) 物理 安全 。 早 期 的 也 是 最 基础 的 安全 涉及 的 是 信息 系统 的 物理 安全 , 即 整个 系统 
所 处 的 场所 和 环境 的 安全 .设备 和 设施 的 安全 ,以 及 整个 系统 可 靠 运行 等 方面 ,这 些 是 信息 
系统 安全 运行 的 基本 保障 。 

从 物理 层面 出 发 ,系统 物理 安全 技术 应 确保 信息 系统 的 安全 性 、 保 密 性 .可 用 人 性、 完整 
性 ,比如 门禁 保安 ,机房 建 设 、 综 合 布线 .通信 线路 的 要 求 , 机 房 应 具备 一 定 的 防火 防盗. 温 湿 
度 控 制 能 力 一定 的 应 急 供 配 电能 力 以 保证 系统 的 可 用 性 ; 通过 设备 访问 控制 .边界 保护 、 
设备 及 网 络 资源 管理 等 措施 确保 信息 系统 的 保密 性 和 完整 性 ; 通过 容错 、 故 障 恢 复 、 系 统 灾 
难 备 份 等 措施 确保 信息 系统 可 用 性 。 为 保证 系统 整体 的 正常 运行 ,还 需要 有 设备 备份 、 网 络 
性 能 监测 .设备 运行 状态 监测 .报警 监测 的 要 求 。 

(2) 网 络 安全 。20 世纪 80 年 代 的 信息 系统 ,就 做 到 了 物理 上 的 安全 隔离 和 可 靠 运行 ， 
具备 了 基本 的 安全 保障 。 然 而 到 了 20 世纪 90 年 代 , 随 着 网 络 的 出 现 和 发 展 ,信息 能 够 通过 
网 络 进行 远程 传输 和 交换 ,因而 安全 防护 也 就 不 再 局 限于 信息 系统 的 物理 隔离 ,而 是 扩展 到 
了 整个 网 络 可 以 到 达 的 范围 。 网 络 安全 是 指 网 络 系统 的 硬件 、 软 件 及 其 系统 中 的 数据 受到 
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保护 ,不 因 偶然 的 或 者 恶意 的 原因 而 遭受 到 破坏 ,更改 .泄漏 ,系统 可 以 连续 可 靠 正 常 地 运 
行 ,网 络 服务 不 中 断 。 网 络 安全 包含 网 络 设备 安全 、 网 络 信息 安全 、 网 络 软件 安全 。 从 广义 
来 说 ,凡是 涉及 网 络 上 信息 的 保密 性 、 完 整 性 、 可 用 性 、 真 实 性 和 可 控 性 的 相关 技术 和 理论 都 
是 网 络 安全 的 研究 范畴 。 建 立 网 络 安全 保护 措施 的 目的 是 确保 经 过 网 络 传输 和 交换 的 数据 
不 会 发 生 增 加 、 修 改 、 丢 失 和 泄漏 等 问题 。 从 网 络 运行 和 管理 者 角度 说 ,希望 本 地 网 络 信息 
的 访问 . 读 写 等 操作 受到 保护 和 控制 ,避免 出 现 “ 陷 门 ”病毒 ,非法 存 取 、 拒 绝 服务 和 网 络 资 
源 非 法 占用 和 非法 控制 等 问题 ,制止 和 防御 网 络 黑客 的 攻击 。 对 安全 保密 部 门 来 说 ,他 们 和 希 
望 能 够 对 非法 的 .有害 的 或 涉及 国家 机 密 的 信息 进行 过 滤 和 防 堵 , 避 免 机 要 信息 泄漏 ,避免 
对 社会 产生 危害 ,给 国家 造成 巨大 损失 。 从 社会 教育 和 意识 形态 角度 来 讲 , 网 络 上 不 健康 的 
内 容 , 会 阻碍 社会 的 稳定 和 人 类 的 发 展 ,必须 对 其 进行 控制 。 

(3) 应 用 安全 。 信 息 一 般 都 是 通过 应 用 系统 来 存 取 ,因此 ,应 用 系统 的 安全 也 是 确保 信 
息 安全 的 一 个 重要 部 分 。 常 见 的 应 用 有 Web 应 用 、 数 据 库 服 务 、 电 子 商 务 等 ,首先 需要 确保 
这 些 应 用 的 安全 ,才能 保障 它们 所 管理 维护 的 信息 的 安全 。Web 业务 是 开放 的 交互 业务 ， 
其 安全 性 也 面临 很 大 的 挑战 。 这 涉及 身份 鉴别 ,数据 访问 权限 管理 ,保护 服务 器 不 被 非法 授 
权 访 问 ,保护 浏览 器 不 被 恶意 代码 如 病毒 和 木马 等 侵袭 ,保护 网 页 不 被 非法 自 改 ,防止 SQL 
注入 等 。 针 对 应 用 安全 的 常见 的 安全 防护 手段 包括 身份 认证 ,访问 控制 .入 侵 防 护 、 正 确 设 
置 浏览 器 安全 选项 .定期 漏洞 扫描 加 固 等 。 而 带 有 支付 功能 的 电子 商务 应 用 对 于 安全 防护 
要 求 更 高 ,因为 它 直接 涉及 用 户 的 经 济 财产 ,尤其 是 当今 的 移动 电子 商务 ,泄漏 风险 非常 高 。 
在 这 方面 ,除了 常规 的 网 络 安全 和 应 用 安全 手段 之 外 ,还 涉及 密 钥 管理 .数字 证 书 、 身 份 认证 
鉴 权 .电子 支付 手段 等 ,对 于 黑客 攻击 、 病 毒 及 木马 的 防护 也 尤其 重要 。 

(4) 数据 安全 。 在 当今 大 数据 时 代 , 数 据 安 全 就 上 升 到 了 非常 重要 的 地 位 ,因为 数据 的 
体 量 大 ,价值 高 。 数 据 安全 ,一 是 数据 防 丢失 ,主要 是 采用 现代 信息 存储 手段 对 数据 进行 主 
动 防护 ,如 磁盘 阵列 ,数据 备份 和 恢复 、 异 地 容 灾 等 ; 二 是 数据 防 泄漏 ,首先 可 以 采用 现代 密 
码 算 法 对 数据 进行 主动 保护 ,如 数据 加 密 、 数 据 完整 性 检查 、 双 向 强身 份 认证 等 ; 另外 一 方 
面 需 要 防止 数据 被 非法 访问 和 盗 取 , 在 数据 的 传输 和 处 理 过 程 中 对 数据 的 防护 也 很 重要 。 

除了 以 上 几 个 方面 之 外 ,管理 是 信息 安全 中 最 重要 的 部 分 。 安 全 意识 不 强 、 责 权 不 明 、 
安全 管理 制度 不 健全 及 缺乏 可 操作 性 等 都 会 带 来 泄漏 风险 。 事 前 对 于 安全 防范 不 重视 , 缺 
乏 严 密 的 安全 管理 ,防护 制度 及 流程 , 当 出 现 安全 风险 和 威胁 时 (如 遭受 攻击 或 内 部 人 员 操 
作 违 规 等 ) ,无 法 进行 实时 的 检测 .监控 、 报 告 与 预警 ,在 事故 发 生 后 ,也 不 能 提供 追溯 线索 、 
采取 补救 措施 、 加 强 防范 ,必然 会 导致 严重 的 后 果 和 损失 。 

大 数据 平台 是 大 数据 管理 的 技术 基础 ,也 是 有 效 地 将 大 数据 经 过 清洗 ,梳理 ,转换 ,再 进 
行 加 工 和 深度 利用 ,能 够 形成 数据 资产 和 产生 数据 价值 的 基础 处 理 架 构 和 工具 。 大 数据 技 
术 平 台 与 传统 信息 技术 体系 的 区 别 在 于 它 能 够 处 理 大 数据 的 多 源 异 构 性 、 高 通 量 、 大 容量 、 
实时 性 等 需求 ,采用 的 方法 包括 云 计算 ,分 布 式 存储 、 分 布 式 计算 、 并 行 处 理 架 构 、 海 量 批 处 
理 、 实 时 流 处 理 、 数 据 挖掘 算法 及 模型 、 人 工 智 能 、 深 度 学 习 、 虚 拟 现实 /增强 现实 等 一 系列 新 
一 代 信 息 处 理 架 构 , 因 而 也 能 有 效 地 突破 传统 信息 系统 的 瓶颈 ,充分 发 掘 和 实现 数据 价值 。 


> 大 数据 的 
?第 4 章 。 数据 整合 、 交 换 与 交易 


使 -ee-e 


大 数据 的 特点 在 于 其 多 样 性 ,数据 具备 多 种 类 别 和 结构 ,来自 不 同 的 数据 源 。 把 一 个 行 
业 的 全 样本 数据 整合 起 来 ,或 是 把 不 同 种 类 数据 整合 在 一 起 ,进行 汇总 和 交叉 关联 分 析 , 就 
能 得 到 有 价值 的 发 现 , 实 现 大 数据 的 行业 创新 应 用 。 同 时 ,传统 数据 分 析 的 基础 是 获取 到 数 
据 的 所 有 权 , 所 以 其 应 用 范围 有 限 。 而 在 大 数据 时 代 ,数据 整合 需要 打破 行业 条 块 分 割 和 数 
据 孤 岛 ,整合 尽 可 能 多 的 数据 源 ,因此 数据 的 交换 共享 非常 重要 。 一 个 城市 的 大 数据 建设 涉 
及 政务 、 医 疗 、 教 育 、 交 通 、 城 市 管理 ,公共 安全 、 应 急 指挥 等 几 十 个 方面 ,首先 就 需要 在 这 些 
行业 实现 数据 整合 和 交换 。 在 此 之 上 ,还 可 以 把 数据 加 工 变 成 服务 ,数据 变 成 服务 以 后 ,也 
可 以 方便 地 整合 在 一 起 ,形成 新 的 服务 和 价值 。 这 种 整合 可 以 发 生 在 政府 部 门 之 间 ,企业 之 
间 , 行 业 之 间 , 也 可 以 在 这 些 实体 之 间 交 叉 , 具 体 取决 于 数据 是 如 何 被 使 用 的 。 由 于 数据 本 
身 就 是 资产 ,具备 价值 ,因此 基于 数据 之 间 ,以 及 数据 衍生 服务 之 间 还 可 以 进行 数据 交易 ,在 
未 来 ,数据 交易 可 能 是 最 赚钱 的 数据 业务 。 

大 数据 产业 自 2012 年 美国 发 布 大 数据 国家 战略 开始 , 迎 来 了 蓬勃 的 发 展 , 自 2015 年 开 
始 , 则 进入 了 高 速 增长 期 。 据 研究 机 构 预 测 ,未 来 5 年 .全球 大 数据 市 场 将 保持 31.7% 的 年 
复合 增长 率 , 中 国 大 数据 市 场 的 年 复合 增长 率 将 高 达 51.4%% ,大 数据 产业 正在 成 为 新 的 经 
济 增长 点 。 大 数据 价值 发 掘 和 体现 的 前 提 和 基础 是 数据 的 开放 ` 流 通 , 通 过 整合 利用 数据 资 
源 , 才 能 激发 数据 的 市 场 和 创新 活力 。 

举例 来 说 ,当前 最 热门 的 互联 网 金融 行业 ,需要 形成 企业 和 个 人 的 信用 评估 ,就 需要 把 
金融 企业 自身 的 客户 信息 ,和 工商 ,税务 、 通 信 、 消 费 、 旅 游 ,乃至 用 户 的 社交 信息 整合 起 来 ， 
才能 形成 对 客户 的 完整 描述 和 评估 。 在 智慧 旅游 产业 ,经 营 酒店 的 业主 则 需要 获得 天 气 、 交 
通 、 景 区 等 信息 ,才能 优化 经 营 和 服务 。 

大 数据 的 数据 来 源 广泛 ,应 用 需求 和 数据 类 型 都 不 尽 相 同 , 从 数据 的 来 源 及 其 基本 的 流 
向 ,我 们 总 结 其 最 基本 的 处 理 流程 是 一 致 的 ,如 图 4-1 所 示 。 

数据 源 的 界定 : 找到 我 们 分 析 和 处 理 所 需 要 的 数据 源 ,数据 源 可 能 包括 结构 化 的 数据 、 

结构 化 的 数据 、 非 结构 化 的 数据 等 。 

数据 的 抽取 和 整合 : 对 广泛 异 构 的 数据 源 进行 抽取 和 集成 ,结果 按照 一 定 的 标准 进行 
统一 存储 。 在 抽取 和 整合 过 程 中 需要 注重 数据 的 质量 和 可 信和 度 , 形 成 对 数据 的 元 数据 (模式 
等 ) 的 描述 ,并 做 一 定 的 聚合 和 关联 处 理 。 

数据 分 析 : 利用 合适 的 数据 分 析 技 术 对 存储 的 数据 进行 分 析 , 从 中 提取 有 价值 的 知识 
和 信息 。 主 要 的 分 析 手 段 有 辅助 决策 、 商 业 智能 (BD 、 推 荐 、 预 测 等 。 
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图 4-1 大 数据 处 理 流程 


可 视 化 : 将 数据 分 析 结 果 用 直观 恰当 的 方式 展现 给 用 户 。 

应 用 : 面向 不 同 的 用 户 形成 应 用 交互 。 

我 们 看 到 ,数据 整合 是 大 数据 处 理 流程 中 非常 重要 的 一 环 ,是 数据 分 析 的 前 提 和 基础 。 
在 数据 整合 的 过 程 管理 中 ,需要 注重 以 下 几 个 方面 。 

1. 统一 模式 ,制定 标准 

大 数据 时 代 , 政 府 和 企业 进行 数据 整合 的 关键 是 要 形成 对 数据 资源 的 统一 管理 和 标准 
建设 ,第 5 章 将 具体 阐述 大 数据 的 管理 方法 和 实践 。 我 们 需要 把 各 个 行业 和 业务 系统 中 最 核 
心 , 最 基础 ,最 重要 的 数据 (也 称 主 数据 ) ,集中 进行 数据 的 ETL( 抽 取 、 清 洗 、 转 换 ), 制 定好 数据 
存储 和 交换 的 模式 .接口 和 访问 方法 ,做 好 元 数据 管理 ,严格 把 握 数 据 质量 和 标准 ,能 够 把 统一 
的 完整 的 ,准确 的 .具有 权威 性 的 主 数据 提供 给 上 层 需要 使 用 这 些 数 据 的 模块 和 应 用 。 

2. 构建 适合 结构 化 和 非 结构 化 数据 融合 的 数据 模型 

在 大 数据 时 代 , 政 府 和 企业 的 数据 资产 不 仅 局 限于 原来 的 结构 化 文本 数据 ,各 种 数字 化 
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的 音频 、 视 频 、 图 片 邮件、 社会 化 网 络 、 传 感 器 信息 等 非 结构 化 数据 在 企业 数据 资源 中 的 比 
重 逐 步 攀 升 。 传 统 的 结构 化 的 数据 模型 和 管理 方式 无 法 实现 对 非 结 构 化 数据 的 组 织 和 管 
理 。 因 此 ,需要 推进 结构 化 和 非 结 构 化 数据 的 融合 式 发 展 ,构建 适合 结构 化 和 非 结 构 化 数据 
的 统一 组 织 和 管理 的 数据 模型 。 实 现 对 海量 复杂 数据 信息 的 科学 有 效 管理 ,才能 充分 挖掘 
企业 数据 资源 的 潜在 价值 。 

3. 注重 数据 质量 和 数据 可 信和 度 

注重 数据 质量 和 数据 本 身 的 完整 性 ,准确 性 ,才能 保障 大 数据 分 析 结 果 的 真实 有 效 , 否 
则 很 可 能 得 到 错误 的 分 析 结 果 , 做 出 错误 的 判断 和 决策 ,这 对 于 企业 的 发 展 是 致命 的 。 数 据 
质量 和 数据 可 信和 度 就 是 大 数据 时 代 政 府 和 企业 的 生命 线 。 

4. 重视 数据 安全 管理 ,确保 大 数据 生态 圈 信 息 安 全 

大 数据 时 代 , 信 息 系统 之 间 互 联 是 必然 的 ,它们 会 形成 一 个 息息相关 的 生态 圈 。 在 这 一 
生态 圈 里 ,存储 和 管理 的 大 量 数据 信息 是 企业 市 场 竞争 力 的 核心 ,需要 对 数据 安全 问题 进行 
控制 和 管理 。 因 此 ,企业 在 数据 整合 过 程 中 应 以 数据 安全 管理 为 前 提 , 需 要 与 上 下 游 企 业 以 
及 安全 管理 机 构 .评测 机 构 等 第 三 方 机 构 开 展 广泛 合作 ,从 企业 管理 制度 ,流程 和 技术 手段 
等 多 方面 协作 确保 大 数据 生态 圈 的 数据 信息 安全 。 

大 数据 的 整合 ,除了 数据 层面 的 整合 ,还 涉及 和 数据 处 理 架 构 的 整合 ,包括 和 大 数据 平 
台 以 及 平台 基础 设施 的 整合 。 大 数据 平台 整合 , 指 的 是 大 数据 如 何 结合 大 数据 处 理 平台 ,能 
够 完成 数据 的 统一 存储 和 深度 分 析 .展示 及 应 用 ; 而 基础 设施 的 整合 , 则 包含 与 存储 架构 的 
整合 .与 网 络 架构 的 整合 ,还 有 与 虚拟 化 技术 的 整合 。 下 面 章节 中 将 具体 介绍 整合 的 机 制 和 
方式 。 


4.1 大 数据 平台 整合 


第 3 章 中 介绍 了 大 数据 平台 的 架构 体系 。 大 数据 平台 的 整合 ,涵盖 了 数据 在 平台 上 如 
何 融 合 基 础 设施 ,以 及 如 何 和 相关 的 采集 、 存 储 、 分 析 、 展 示 交 互 及 应 用 模块 进行 接口 。 下 面 
首先 讨论 一 下 最 主流 的 开源 大 数据 平台 Hadoop 的 平台 整合 。 

Hadoop 大 数据 处 理 平台 堪 称 大 数据 领域 的 开山 鼻祖 , 它 是 Google 的 GFS 文件 系统 和 
MapReduce 分 布 式 处 理 框架 的 开源 实现 。 虽 然 在 此 之 前 有 很 多 类 似 的 分 布 式 存储 和 计算 
平台 ,但 真正 能 实现 工业 级 应 用 、 降 低 使 用 门槛 、 带 动 业界 大 规模 部 署 的 就 是 Hadoop。 得 
益 于 MapReduce 框架 的 易 用 性 和 容错 性 ,以 及 同时 包含 存储 系统 和 计算 系统 ,使 得 Hadoop 
成 为 大 数据 处 理 平台 的 基石 之 一 。Hadoop 能 够 满足 大 部 分 的 离线 存储 和 离线 计算 需求 ， 
且 性 能 表现 不 俗 ; 小 部 分 离线 存储 和 计算 需求 ,在 对 性 能 要 求 不 高 的 情况 下 ,也 可 以 使 用 
Hadoop 实现 。 随 着 整个 Hadoop 开源 体系 的 不 断 完 善 和 进步 ,逐步 形成 了 基于 Hadoop 的 
一 个 大 数据 产业 生态 链 。 我 们 以 Cloudera 的 Hadoop 产品 链 为 例 说 明 它 的 生态 构成 ,如 
图 4-2 所 示 。 

整个 Hadoop 生态 链 有 以 下 几 个 主要 组 成 部 分 。 

(1) Hadoop HDFS 分 布 式 文件 系统 : 能 够 在 大 量 的 存储 节点 上 保存 海量 数据 ,并 且 具 
备 自动 备份 和 容错 机 制 。 

(2) MapReduce 分 布 式 计算 框架 : 基于 大 规模 的 存储 和 计算 节点 进行 分 布 式 的 数据 
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图 4-2 Cloudera 的 Hadoop 大 数据 生态 链 


处 理 。 
(3) Zookeeper: 集群 锁 及 同步 管理 工具 。 
(4) HBase 分 布 式 数据 库 : 能 够 进行 海量 数据 的 数据 库 管理 。 
(5) Flume: Sqoop 数据 整合 /集成 工具 。 
(6) Pig/Hive: 基于 Hadoop 的 高 级 分 析 语 言 。 
(7) Oozie: 工作 流 管理 和 调度 。 
(8) Hue: 基于 交互 式 图 形 界面 的 管理 工具 。 
下 面 介绍 其 中 几 个 核心 部 件 。 


4.1.1 HDFS 分 布 式 文件 系统 


Hadoop 由 许多 元 素 构成 ,其 最 底部 是 Hadoop Distributed File System(HDFS) , 它 存 
储 Hadoop 集群 中 所 有 存储 节点 上 的 文件 ,是 GFS 的 开源 实现 ,因此 本 节 只 对 HDFS 做 简 
要 的 介绍 ,包括 HDFS 的 特点 .架构 . 读 写 操作 过 程 。 

HDFS 是 一 种 分 布 式 文件 系统 ,运行 于 大 型 商用 机 集群 ,为 HBase 提供 了 高 可 靠 性 的 
底层 存储 支持 。 由 于 HDFS 具有 高 容错 性 的 特点 ,所 以 可 以 设计 部 署 在 低廉 的 硬件 上 。 它 
可 以 以 很 高 的 高 春 吐 率 来 访问 应 用 程序 的 数据 ,适合 那些 有 着 超大 数据 集 的 应 用 程序 。 
HDFS 与 其 他 分 布 式 文件 系统 有 许多 相似 点 ,但 也 有 几 个 不 同 点 。 一 个 明显 的 区 别 是 
HDFS 的 “一 次 写 入 ,多 次 读 取 (write-once-read-many) "模型 ,该 模型 降低 了 并 发 性 控制 要 
求 ,简化 了 数据 聚合 性 ,支持 高 吞吐 量 访问 。 

HDFS 的 另 一 个 独特 的 特性 是 下 面 这 个 观点 : 将 处 理 逻 辑 放置 到 数据 附近 通常 比 将 数 
据 移 向 应 用 程序 空间 更 好 (移动 程序 比 移动 数据 更 划算 )。 通 常 一 个 数据 处 理 程序 只 有 几 
KB 一 几 MB 的 大 小 ,而 数据 则 非常 大 .显然 ,将 程序 移动 到 数据 所 在 的 位 置 ,处 理 完 数据 之 
后 将 处 理 结果 传 回调 用 方 ,这 样 能 节省 很 多 网 络 带 宽 资源 。 

HDFS 将 数据 写 入 严格 限制 为 一 次 一 个 写 入 程序。 字 节 总 是 被 附加 到 一 个 流 的 末尾 ， 
字 节 流 总 是 以 写 入 顺序 存储 。 

HDFS 有 许多 目标 ,下 面 是 一 些 最 明显 的 目标 。 

(1) 通过 检测 故障 和 应 用 快速 、 自 动 的 恢复 实现 容错 性 。 由 于 HDFS 建立 在 大 量 普 通 
的 硬件 设备 上 ,因此 硬件 故障 是 常见 的 问题 ,整个 HDFS 由 数 百 台 或 数 千 台 存储 着 数据 文 
件 的 服务 器 组 成 ,而 如 此 多 的 服务 器 意味 着 高 故障 率 ,所 以 故障 的 检测 和 自动 快速 恢复 是 





二 | 
HDFS 的 一 个 核心 目标 。 

(2) 通过 MapReduce 流 进行 数据 访问 。HDFS 使 应 用 程序 能 流 式 地 访问 它们 的 数据 
集 。HDFS 被 设计 成 适合 进行 批量 处 理 , 而 不 是 用 户 交 互 式 的 处 理 。 所 以 它 重视 数据 吞吐 
量 , 而 不 是 数据 访问 的 反应 速度 。 

(3) 简单 可 靠 的 聚合 模型 。 

(4) 处 理 逻 辑 接近 数据 ,而 不 是 数据 接近 处 理 逻 辑 。 

(5) 跨 异 构 普 通 硬件 和 操作 系统 的 可 移植 性 。 

(6) 可 靠 存储 和 处 理 大 量 数据 的 可 伸缩 性 。 

(7) 通过 跨 多 个 普通 个 人 计算 机 集群 分 布 数据 和 处 理 来 节约 成 本 。 

(8) 通过 分 布 数据 和 逻辑 到 数据 所 在 的 多 个 节点 上 进行 平行 处 理 来 提高 效率 。 

(9) 通过 自动 维护 多 个 数据 副本 和 在 故障 发 生 时 自动 重新 部 署 处 理 逻 辑 来 实现 可 
靠 性 。 

HDFS 是 分 布 式 计 算 的 存储 基石 ,Hadoop 的 分 布 式 文件 系统 和 其 他 分 布 式 文件 系统 
有 很 多 类 似 的 特质 。 分 布 式 文件 系统 具有 以 下 几 个 特点 。 

(1) 对 于 整个 集群 有 单一 的 命名 空间 。 

(2) 数据 一 致 性 。 适 合 一 次 写 入 多 次 读 取 的 模型 ,客户 端 在 文件 没有 被 成 功 创建 之 前 
无 法 看 到 文件 存在 。 

(3) 文件 会 被 分 割 成 多 个 文件 块 ,每 个 文件 块 被 分 配 存储 到 数据 节点 上 ,而 且 根据 配置 
会 由 复制 文件 块 来 保证 数据 的 安全 性 。 


4.1.2 MapReduce 分 布 式 计算 框架 


MapReduce 是 一 种 用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 运算 的 编程 模型 。 概 念 "Map 
(映射 )” 和 "Reduce( 归 约 )" 以 及 它们 的 主要 思想 ,都 是 从 函数 式 编程 语言 里 借用 而 来 的 , 同 
时 也 包含 从 矢量 编程 语言 里 借 来 的 特性 。MapReduce 极 大 地 方便 了 编程 人 员 在 不 会 分 布 
式 并 行 编程 的 情况 下 ,将 自己 的 程序 运行 在 分 布 式 系 统 上 。 

许多 人 认为 这 种 编程 方式 的 重大 变化 将 带 来 一 次 软件 的 并 发 危机 ,因为 传统 的 软件 方 
式 基 本 上 是 单 指令 单数 据 流 的 顺序 执行 ,这 种 顺序 执行 十 分 符合 人 类 的 思考 习惯 , 却 与 并 发 
并 行 编程 格格 不 人 。 基 于 集群 的 分 布 式 并 行 编程 ,能 够 让 软件 与 数据 同时 运行 在 连 成 一 个 
网 络 的 许多 台 计 算 机 上 ,这 里 的 每 一 台 计 算 机 均 可 以 是 一 台 普通 的 PC。 这样 的 分 布 式 并 行 
环境 的 最 大 优点 是 ,可 以 很 容易 地 通过 增加 计算 机 来 扩充 新 的 计算 节点 ,并 由 此 获得 不 可 思 
议 的 海量 计算 能 力 , 同 时 又 具有 相当 强 的 容错 能 力 ,一 批 计算 节点 失效 也 不 会 影响 计算 的 正 
常 进行 以 及 结果 的 正确 性 。Google 就 是 这 么 做 的 ,他 们 使 用 了 叫做 MapReduce 的 并 行 编 
程 模型 进行 分 布 式 并 行 编程 ,运行 在 叫做 GFS(Google File System) 的 分 布 式 文件 系统 上 ， 
为 全 球 亿 万 用 户 提供 搜索 服务 。 

Hadoop 实现 了 Google 的 MapReduce 编程 模型 ,提供 了 简单 易 用 的 编程 接口 ,也 提供 
了 它 自 己 的 分 布 式 文件 系统 HDFS, 与 Google 不 同 的 是 ,Hadoop 是 开源 的 ,任何 人 都 可 以 
使 用 这 个 框架 来 进行 并 行 编程 。 如 果 说 分 布 式 并 行 编程 的 难度 足以 让 普通 程序 员 望 而 生 旦 
的 话 , 开 源 的 Hadoop 的 出 现 , 则 极 大 地 降低 了 它 的 门槛 。 你 会 发 现 ,基于 Hadoop 编程 非 
常 简 单 , 无 须 任何 并 行 开发 经 验 , 也 可 以 轻松 地 开发 出 分 布 式 的 并 行程 序 ,并 让 其 令 人 难以 
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置信 地 同时 运行 在 数 百 台 机 器 上 ,然后 在 短 时 间 内 完成 海量 数据 的 计算 。 你 可 能 会 觉得 你 
不 可 能 会 拥有 数 百 台 机 器 来 运行 你 的 并 行程 序 , 而 事实 上 , 随 着 “ 云 计算 ”的 普及 ,任何 人 都 
可 以 轻松 获得 这 样 的 海量 计算 能 力 。 例 如 ,现在 Amazon 公司 的 云 计 算 平 台 Amazon EC2 
已 经 提供 了 这 种 按 需 计算 的 租用 服务 。 

MapReduce 是 Google 提出 的 一 种 并 行 化 编程 模型 , 简 而 言 之 , 它 体 现 了 分 而 治之 的 策 
咯 , 它 将 复杂 的 、 运 行 于 大 规模 集群 上 的 并 行 计算 过 程 高 度 地 抽象 到 了 两 个 函数 : Map 和 
Reduce。 适 合用 MapReduce 来 处 理 的 数据 集 ( 或 任务 ) ,需要 满足 一 个 基本 要 求 : 待 处 理 的 
数据 集 可 以 分 解 成 许多 小 的 数据 集 ,而 且 每 一 个 小 数据 集 都 可 以 完全 并 行 地 进行 处 理 。 一 
个 MapReduce 作业 (job) 通 常会 把 输入 的 数据 集 切 分 为 若干 独立 的 数据 块 ,由 map 任务 
(task) 以 完全 并 行 的 方式 处 理 它们 。 框 架 会 对 map 的 输出 先进 行 排序 ,然后 把 结果 输入 给 
reduce 任务 。 通 常 作业 的 输入 和 输出 都 会 被 存储 在 文件 系统 中 。 整 个 框架 负责 任务 的 调 
度 和 监控 ,以 及 重新 执行 已 经 失败 的 任务 。 通 常 ,MapReduce 框架 和 分 布 式 文件 系统 是 运 
行 在 一 组 相同 的 节点 上 的 ,也 就 是 说 ,计算 节点 和 存储 节点 通常 在 一 起 。 这 种 配置 允许 框架 
在 那些 已 经 存 好 数据 的 节点 上 高 效 地 调度 任务 ,这 可 以 使 整个 集群 的 网 络 带宽 被 非常 高 效 
地 利用 。MapReduce 框架 由 单独 一 个 master JobTracker 和 每 个 集群 节点 一 个 slave 
TaskTracker 共同 组 成 。 这 个 master 负责 调度 构成 一 个 作业 的 所 有 任务 ,这 些 任 务 分 布 在 
不 同 的 slave 上 ,master 监控 它们 的 执行 ,重新 执行 已 经 失败 的 任务 。 而 slave 仅 负责 执行 
由 master 指派 的 任务 。 应 用 程序 至 少 应 该 指明 输入 /输出 的 位 置 (路 径 ) ,并 通过 实现 合适 
的 接口 或 抽象 类 提供 map 和 reduce 函数 ,再 加 上 其 他 作业 的 参数 ,就 构成 了 作业 配置 。 然 
后 ,Hadoop 的 job client 提交 作业 (jar 包 / 可 执行 程序 等 ) 和 配置 信息 给 JobTracker, 后 者 负 
责 分 发 这 些 软件 和 配置 信息 给 slave、 调 度 任务 且 监 控 它 们 的 执行 ,同时 提供 状态 和 诊断 信 
息 给 job client。 虽 然 Hadoop 框架 是 用 Java 实现 的 ,但 MapReduce 应 用 程序 则 不 一 定 要 
用 Java 来 写 。 

如 图 4-3 所 示 , 下 面 介 绍 一 下 Hadoop MapReduce 框架 的 执行 原理 。 

谈 MapReduce 运行 机 制 , 可 以 从 很 多 不 同 的 角度 来 描述 ,比如 说 从 MapReduce 运行 流 
程 来 讲解 ,也 可 以 从 计算 模型 的 逻辑 流程 来 进行 讲解 ,也 许 有 些 深 入 理解 了 MapReduce 运 
行 机 制 还 会 从 更 好 的 角度 来 描述 ,但 是 讲 MapReduce 运行 机 制 有 些 东西 是 避免 不 了 的 ,就 
是 一 个 个 参 和 的 实例 对 象 , 一 个 就 是 计算 模型 的 逻辑 定义 阶段 ,这 里 的 讲解 不 从 什么 流程 出 
发 ,就 从 这 些 一 个 个 牵涉 的 对 象 出 发 ,不 管 是 物理 实体 还 是 逻辑 实体 。 

首先 讲 讲 物理 实体 ,MapReduce 作业 的 执行 涉及 如 下 4 个 独立 的 实体 。 

(1) 客户 端 (Client) : 编写 MapReduce 程序 .配置 作业 ,提交 作业 ,这 就 是 程序 员 完 成 
的 工作 。 

(2) JobTracker: 初始 化 作业 ,分 配 作 业 ,与 TaskTracker 通信 ,协调 整个 作业 的 执行 。 

(3) TaskTracker: 保持 与 JobTracker 的 通信 ,在 分 配 的 数据 片段 上 执行 Map 或 
Reduce 任务 ,TaskTracker 和 JobTracker 的 不 同 有 个 很 重要 的 方面 ,就 是 在 执行 任务 时 
TaskTracker 可 以 有 很 多 个 ,而 JobTracker 则 只 会 有 一 个 (JobTracker 只 能 有 一 个 ,就 和 
HDFS 里 NameNode 一 样 存在 单 点 故障 ,后 面 讲 MapReduce 2. 0 的 时 候 会 具体 介绍 ) 。 

(4) HDFS: 保存 作业 的 数据 ,配置 信息 等 ,最 后 的 结果 也 是 保存 在 HDFS 上 面 。 

下 面 从 逻辑 实体 的 角度 讲解 MapReduce 运行 机 制 ,这 些 按照 时 间 顺 序 包 括 : 输入 分 片 
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图 4-3 MapReduce 运行 原理 


(input split) .map 阶段 .combiner 阶段 ,shuffle 阶段 和 reduce 阶段 。 

(1) 输入 分 片 (input split) : 在 进行 map 计算 之 前 ,MapReduce 会 根据 输入 文件 计算 输 
人 分 片 ,每 个 输入 分 片 针对 一 个 map 任务 ,输入 分 片 存储 的 并 非 数据 本 身 , 而 是 一 个 分 片 长 
度 和 一 个 记录 数据 的 位 置 的 数组 ,输入 分 片 往 往 和 HDFS 的 block( 块 ) 关 系 很 密切 ,假如 设 
定 HDFS 的 块 的 大 小 是 64MB, 如 果 输 入 三 个 文件 ,大 小 分 别 是 3MB、65MB 和 127MB, 那 
么 MapReduce 会 把 3MB 文件 分 为 一 个 输入 分 片 ,65MB 则 是 两 个 输入 分 片 而 127MB 也 是 
两 个 输入 分 片 , 换 句 话说 ,如 果 在 map 计算 前 做 输入 分 片 调整 ,例如 合并 小 文件 ,那么 就 会 
有 5 个 map 任务 将 执行 ,而 且 每 个 map 执行 的 数据 大 小 不 均 , 这 也 是 MapReduce 优化 计算 
的 一 个 关键 点 。 

(2) map 阶段 : 就 是 程序 员 编写 好 的 map 函数 了 ,因此 map 函数 效率 相对 好 控制 ,而 
且 一 般 map 操作 都 是 本 地 化 操作 也 就 是 在 数据 存储 节点 上 进行 。 

(3) combiner 阶段 : combiner 阶段 是 程序 员 可 以 选择 的 ,combiner 其 实 也 是 一 种 
reduce 操作 。combiner 是 一 个 本 地 化 的 reduce 操作 , 它 是 map 运算 的 后 续 操 作 ,主要 是 在 
map 计算 出 中 间 文 件 前 做 一 个 简单 的 合并 重复 key 值 的 操作 ,例如 对 文件 里 的 单词 频率 做 
统计 ,map 计算 时 如 果 碰 到 一 个 hadoop 的 单词 就 会 记录 为 1, 但 是 这 篇 文章 里 hadoop 可 能 
会 出 现 nn 次 ,那么 map 输出 文件 元 余 就 会 很 多 ,因此 在 reduce 计算 前 对 相同 的 key 做 一 个 
合并 操作 ,那么 文件 会 变 小 :这样 就 提高 了 宽带 的 传输 效率 ,毕竟 Hadoop 计算 力 宽带 资源 
往往 是 计算 的 瓶颈 也 是 最 为 宝贵 的 资源 ,但 是 combiner 操作 是 有 风险 的 ,使 用 它 的 原则 是 





93 


94 


a 
combiner 的 输出 不 会 影响 到 reduce 计算 的 最 终 输 入 。 例 如 ,如 果 计 算 只 是 求 总 数 、 最 大 值 、 
最 小 值 ,可 以 使 用 combiner, 但 是 做 平均 值 计算 使 用 combiner 的 话 ,最 终 的 reduce 计算 结 
果 就 会 出 错 
(4) a 阶段 : 将 map 的 输出 作为 reduce 的 输入 的 过 程 就 是 shuffle 了 ,这 是 
MapReduce 优化 的 重点 地 方 。 本 节 不 讲 怎么 优化 shuffle 阶段 , 仅 讲 shuffle 阶段 的 原理 , 因 
为 大 部 分 的 书籍 里 都 没 讲 清楚 shuffle 阶段 。shuffle 一 开始 就 是 map 阶段 做 输出 操作 ,一 
般 MapReduce 计算 的 都 是 海量 数据 ,map 输出 时 不 可 能 把 所 有 文件 都 放 到 内 存 操 作 , 因 此 
map 写 人 磁盘 的 过 程 十 分 复杂 ,更 何况 map 输出 时 要 对 结果 进行 排序 ,内 存 开 销 是 很 大 的 。 
map 在 做 输出 时 会 在 内 存 里 开启 一 个 环形 内 存 缓 冲 区 ,这 个 缓冲 区 专门 用 来 输出 ,默认 大 
小 是 100MB, 并 且 在 配置 文件 里 为 这 个 缓冲 区 设 定 了 一 个 阀 值 ,默认 是 0. 80( 这 个 大 小 和 阀 
值 都 是 可 以 在 配置 文件 里 进行 配置 的 )。 同 时 map 还 会 为 输出 操作 启动 一 个 守护 线程 ,如 
果 缓 冲 区 的 内 存 达 到 了 阀 值 的 80% 时 候 , 这 个 守护 线程 就 会 把 内 容 写 到 磁盘 上 ,这 个 过 程 
叫做 spil。 另 外 的 20% 内 存 可 以 继续 写 人 要 写 进 磁盘 的 数据 , 写 入 磁盘 和 写 入 内 存 操 作 是 
互 不 干扰 的 ,如 果 缓 存 区 被 填 满 了 ,那么 map 就 会 阻塞 写 和 人 内存 的 操作 ,让 写 和 人 磁盘 操作 完 
成 后 再 继续 执行 写 人 内 存 操作 。 前 面 讲 到 写 人 磁盘 前 会 有 个 排序 操作 ,这 个 是 在 写 人 磁盘 
操作 时 进行 ,不 是 在 写 人 内 存 时 进行 的 。 如 果 定 义 了 combiner 函数 ,那么 排序 前 还 会 执行 
combiner 操作 。 每 次 spill 操作 也 就 是 写 入 磁盘 操作 时 就 会 写 一 个 溢出 文件 ,也 就 是 说 在 做 
Dap 输出 时 有 wi spill 就 会 产生 多 少 个 溢出 文件 ,等 map 输出 全 部 做 完 后 ,map 会 合并 这 
些 输出 文件 。 这 个 过 程 里 还 会 有 一 个 partitioner 操作 ,对 于 这 个 操作 很 多 人 都 很 迷糊 ,其 实 
partitioner We map 阶段 的 输入 分 片 很 像 ,一 个 partitioner 对 reduce 作业 ,如 果 
MapReduce 操作 只 有 一 个 reduce 操作 ,那么 partitioner 就 只 有 一 个 ,如 果 有 多 个 reduce 操 
作 , 那 么 partitioner ee 多 个 ,partitioner 因此 就 是 es 的 输入 分 片 , 这 个 程序 
员 可 以 编程 控制 ,主要 是 根据 实际 key 和 value 的 值 ,根据 实际 业务 类 型 或 者 为 了 更 好 的 
reduce 负载 均衡 要 求 进行 ,这 是 提高 reduce 效率 的 一 个 关键 所 在 。 到 了 reduce 阶段 就 是 合 
并 map 输出 文件 了 ,partitioner 会 找到 对 应 的 map 输出 文件 ,然后 进行 复制 操作 ,复制 操作 
时 reduce 会 开启 几 个 复制 线程 ,这 些 线程 默认 个 数 是 5 个 ,程序 员 也 可 以 在 配置 文件 中 更 
改 复制 线程 的 个 数 ,这 个 复制 过 程 和 map 写 入 磁盘 过 程 类 似 ,也 有 阀 值 和 内 存 大 小 , 阅 值 一 
样 可 以 在 配置 文件 里 配置 ,而 内 存 大 小 是 直接 使 用 reduce 的 tasktracker 的 内 存 大 小 ,复制 
时 reduce 还 会 进行 排序 操作 和 合并 文件 操作 ,这 些 操 作 完 了 就 会 进行 reduce 计算 了 。 
(5) reduce 阶段 : 和 map 函数 一 样 也 是 程序 员 编 写 的 ,最终 结果 存储 在 HDFS 上 。 


4.1.3 HBase 分 布 式 数据 库 


HBase(Hadoop Database) 是 一 个 高 可 靠 性 ,高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系 
统 ,利用 了 Base 技术 可 在 廉价 PC 服务 器 上 搭建 起 大 规模 存储 集群 。HBase 是 Google 
BigTable 的 开源 实现 ,模仿 并 提供 了 基于 Google 文件 系统 的 BigTable 数据 库 的 所 有 功能 。 
类 似 Google BigTable 利用 GFS 作为 其 文件 存储 系统 ,HBase 利用 Hadoop HDFS 作为 其 
文件 存储 系统 ; Google 运行 MapReduce 来 处 理 BigTable 中 的 海量 数据 ,HBase 同样 利用 
Hadoop MapReduce 来 处 理 HBase 中 的 海量 数据 ; Google BigTable 利用 Chubby 作为 协 
同 服务 ,HBase 利用 Zookeeper 作为 协同 服务 。 
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在 数据 存储 检索 能 力 方面 ,HBase 以 其 优异 的 随机 读 写 能 力 著称 于 世 : 读 方面 ,根据 行 
键 (rowkey) 的 检索 请 求 响应 在 10ms 以 内 ,而 根据 行 键 范围 的 检索 请 求 响应 同样 在 毫秒 级 ; 
写 方面 ,单条 记录 的 写 入 响应 也 在 10ms 左右 。 

作为 一 个 NoSQL 数据 库 ,HBase 主要 用 来 存储 非 结 构 化 和 半 结 构 化 的 松散 数据 。 因 
此 ,其 本 身 并 未 提供 SQL 方面 的 支持 ,但 其 可 通过 作为 其 他 SQL 执行 引擎 (HIVE、SPARK 
SQL Phoenix) 底 层 数据 源 的 方式 间接 满足 用 户 的 SQL 支持 需求 。 

HBase 可 以 直接 使 用 本 地 文件 系统 或 者 Hadoop 作为 数据 存储 方式 ,不 过 为 了 提高 数 
据 可 靠 性 和 系统 的 健壮 性 ,发 挥 HBase 处 理 大 数据 量 等 功能 ,需要 使 用 Hadoop 作为 文件 
系统 。 与 Hadoop 一 样 ,HBase 的 目标 主要 依靠 横向 扩展 ,通过 不 断 增加 廉价 的 商用 服务 器 
来 增加 计算 和 存储 能 力 。HBase 的 目标 是 处 理 非常 庞大 的 表 , 可 以 用 普通 的 计算 机 处 理 超 
过 10 亿 行 数据 并 且 由 数 百 万 列 元 素 组 成 的 数据 表 。HBase 中 的 表 一 般 有 如 下 这 样 的 特点 。 

(1) 大 : 一 个 表 可 以 有 上 亿 行 ,上 百 万 列 。 

(2) 面向 列 ; 面向 列 ( 族 ) 的 存储 和 权限 控制 , 列 ( 族 ) 独 立 检索 。 

(3) 稀 芍 : 对 于 为 空 (null) 的 列 , 并 不 占用 存储 空间 ,因此 , 表 可 以 设计 得 非常 稀 玻 。 


4.1.4 ”交互 式 数据 查询 分 析 


Hadoop HDFS 中 存储 了 海量 数据 ,可 以 想象 .如果 直 接 访问 这 些 数据 将 给 数据 的 访问 
人 员 带 来 很 大 的 困难 ,而 且 数 据 的 安全 性 也 受到 威胁 。 然 而 庆幸 的 是 ,开源 社区 专门 为 
Hadoop 开发 了 一 些 交 互 式 数据 查询 ,分 析 的 工具 ,下 面 介绍 比较 常用 的 。 

1. Hive 


Hive 是 建立 在 Hadoop 之 上 的 数据 仓库 工具 ,可 用 于 数据 集成 .ad-hoc 查询 、 大 数据 分 
析 。Hive 使 用 HDFS 作为 数据 存储 层 , 提 供 类 似 SQL 的 语言 (HQL) ,将 SQL 语句 转换 为 
MapReduce 任务 .通过 Hadoop-MapReduce 完成 数据 计算 ; 通过 HQL 提供 给 使 用 者 部 分 
和 传统 RDBMS 一 样 的 表格 查询 特性 和 分 布 式 存储 计算 特性 。Hive 诞生 于 Facebook， 
Facebook 拥有 海量 的 日 志 数 据 , 而 这 里 面 很 大 一 部 分 是 结构 化 数据 ,Hive 以 较 低 的 成 本 完 
成 了 以 往 需要 大 规模 数据 库 才 能 完成 的 任务 .并且 学 习 门 槛 相对 较 低 ,应 用 开发 灵活 而 
高 效 。 

2. Pig 

Pig 最 开始 是 2006 年 夏天 雅虎 的 一 个 研究 项 目 , 后 来 发 展 成 为 Hadoop 的 一 个 子 项 目 。 
它 是 一 个 基于 Hadoop 并 运用 MapReduce 和 HDFS 实现 大 规模 数据 分 析 的 平台 ,为 创建 
MapReduce 应 用 程序 提供 一 种 相对 简单 的 工具 ,为 海量 数据 的 并 行 处 理 提供 了 操作 及 编程 
的 接口 。Pig 已 经 逐渐 发 展 成 为 能 够 分 析 大 数据 的 高 级 数据 流 编 程 语言 和 执行 框架 。 

Pig 由 基础 设施 和 Pig Latin 编程 语言 构成 。 其 基础 设施 可 以 支持 在 分 布 式 文件 系统 
上 运行 应 用 程序 。Pig 使 用 Hadoop 框架 ,因此 可 以 对 所 有 的 转换 和 协调 工作 进行 管理 。 首 
先 它 会 自动 在 Pig Latin 脚本 上 执行 优化 ,然后 会 将 相应 的 操作 转换 成 一 个 或 多 个 
MapReduce 操作 。Pig 会 在 Hadoop 集群 上 运行 这 些 操 作 , 并 反映 运行 状态 和 错误 信息 提 
示 等 。 
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4.1.5 数据 收集 、 转 换 工 具 


大 量 数 据 的 收集 与 转换 工作 对 于 Hadoop 来 说 也 是 一 件 轻松 的 事 , 因 为 它 有 专门 的 数 
据 收 集 、 转 换 工具 的 支持 ,大 量 的 数据 采集 和 存储 (如 日 志文 件 ) 往 往 需要 经 过 一 系列 的 处 理 
(数据 ETL), 有 了 这 些 工具 的 支持 就 使 得 工作 得 以 简化 。 下 面 介绍 两 个 常用 的 工具 。 


1. Flume 


Flume 是 一 个 分 布 式 、 可 靠 、 高 可 用 性 的 海量 日 志 采 集 、 聚 合 和 传输 的 系统 。 在 其 实现 
架构 中 ,最 重要 的 特点 是 简单 灵活 的 数据 流 抽象 处 理 。 同 时 ,在 Flume 中 ,通过 Zookeeper 
保证 配置 数据 的 一 致 性 和 可 用 性 。Flume 具有 以 下 特点 。 

(1) 可 靠 性 : 提供 端 到 端的 可 靠 传 输 , 数 据 本 地 化 保存 等 可 靠 性 选项 。 

(2) 可 管理 性 : 通过 Zookeeper 保证 配置 数据 的 可 用 性 ,并 使 用 多 个 master 管理 所 有 
节点 。 

(3) 可 扩展 性 : 可 以 用 Java 语言 实现 新 的 自 定义 功能 。 

2. Sqoop 

Sqoop 是 一 个 用 来 将 Hadoop 和 关系 型 数据 库 中 的 数据 相互 转移 的 工具 ,可 以 将 一 个 
关系 型 数据 库 (MySQL, Oracle,Postgres 等 ) 中 的 数据 导入 到 Hadoop 的 HDFS 中 ,也 可 以 
将 HDFS 的 数据 导入 到 关系 型 数据 库 中 。 有 具体 的 整合 会 在 后 续 章 节 单 独 讨论 。 


4.1.6 其 他 大 数据 平台 


除了 Hadoop 之 外 ,业界 还 有 实时 性 更 强 的 大 数据 处 理 平台 ,其 中 以 Storm 和 Spark 为 
代表 ,这 里 简要 介绍 一 下 。 

Hadoop 极 大 降低 了 海量 数据 计算 能 力 的 门槛 ,使 得 各 个 业务 都 可 以 快速 使 用 Hadoop 
进行 大 数据 分 析 , 随 着 分 析 计算 的 不 断 深入 ,差异 化 的 需求 慢 慢 浮现 了 。 人 们 开始 发 现 , 某 
些 计 算 , 如 果 时 效 性 更 快 ,收益 会 变 得 更 大 ,能 提供 给 用 户 更 好 的 体验 。 一 开始 ,在 Hadoop 
平台 上 为 了 提高 时 效 性 ,往往 会 将 一 整 批 计 算 的 海量 数据 ,切割 成 小 时 级 数据 ,甚至 亚 小 时 
级 数据 ,从 而 变 成 相对 轻 量 的 计算 任务 ,使 得 在 Hadoop 上 可 以 较 快 地 计算 出 当前 片段 的 结 
果 , 再 把 当前 片段 结果 跟 之 前 的 累积 结果 进行 合并 ,就 可 以 较 快 地 得 出 当前 所 需 的 整体 结 
果 , 实 现 较 高 的 时 效 性 。 但 随 着 互联 网 行业 竞争 越 来 越 激烈 ,对 时 效 性 越 来 越 看 重 ,尤其 是 
实时 分 析 统 计 的 需求 大 量 涌现 .分 钟 级 甚至 秒 级 输出 结果 ,是 大 家 所 期 望 的 。Hadoop 计算 
的 时 效 性 所 能 达到 的 极限 一 般 为 10min 左右 , 受 限于 集群 负载 和 调度 策略 ,要 想 持续 稳定 
地 低 于 10min 是 非常 困难 的 ,除非 是 专用 集群 。 因 此 ,为 了 实现 更 高 的 时 效 性 ,在 分 钟 级、 
秒 级 ,其 至 毫秒 级 内 计算 出 结果 ,Storm 应 运 而 生 , 它 完全 摆脱 了 MapReduce 架构 ,重新 设 
计 了 一 个 适用 于 流 式 计算 的 架构 ,以 数据 流 为 驱动 ,触发 计算 ,因此 每 来 一 条 数据 ,就 可 以 产 
生 一 次 计算 结果 ,时 效 性 非常 高 ,一 般 可 以 达到 秒 级 。 而 且 它 的 有 向 无 环 图 计算 拓扑 的 设 
计 , 提 供 了 非常 灵活 丰富 的 计算 方式 ,覆盖 了 常见 的 实时 计算 需求 ,因此 在 业界 得 到 了 大 量 
的 部 署 应 用 。 

Storm 的 核心 框架 保证 数据 流 可 靠 性 的 方式 是 : 每 条 数据 会 被 至 少 发 送 一 次 , 即 正常 
情况 会 发 送 一 次 ,异常 情况 会 重 发 。 这 样 会 导致 中 间 处 理 逻 辑 有 可 能 收 到 两 条 重复 的 数据 。 
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大 多 数 业 务 中 这 样 不 会 带 来 额外 的 问题 ,或 者 是 能 够 容忍 这 样 的 误差 ,但 对 于 有 严格 事务 性 
要 求 的 业务 , 则 会 出 现 问 题 ,例如 , 扣 钱 重复 扣 了 两 次 这 是 用 户 不 可 接受 的 。 为 了 解决 此 问 
题 ,Storm 引入 了 事务 拓扑 ,实现 了 精确 处 理 一 次 的 语义 ,后 来 被 新 的 Trident 机 制 所 取代 。 
Trident 同时 还 提供 了 实时 数据 的 join、group by、filter 等 聚合 查询 操作 。 

随 着 大 数据 平台 的 逐步 普及 ,人 们 不 再 满足 于 如 数据 统计 数据 关联 等 简单 的 挖掘 , 渐 
渐 开 始 尝 试 将 机 器 学 习 / 模 式 识别 的 算法 用 于 海量 数据 的 深度 挖掘 中 。 因 为 机 器 学 习 / 模 式 
识别 的 算法 往往 比较 复杂 ,属于 计算 密集 型 的 算法 , 且 是 单机 算法 ,所 以 在 没有 Hadoop 之 
前 ,将 这 些 算法 用 于 海量 数据 上 几乎 不 可 行 ,至 少 是 工业 应 用 上 不 可 行 : 一 是 单机 计算 不 了 
如 此 大 量 的 数据 ; 二 是 就 算 单 机 能 够 支撑 ,但 计算 时 间 太 长 ,通常 一 次 计算 耗 时 从 几 个 星期 
到 几 个 月 不 等 ,这 对 于 工业 界 来 说 资源 和 时 间 的 消耗 不 可 接受 ; 三 是 没有 一 个 很 易 用 的 并 
行 计 算 平 台 , 可 以 将 单机 算法 快速 改 成 并 行 算法 ,导致 算法 的 并 行 化 成 本 很 高 。 而 有 了 
Hadoop 之 后 ,这 些 问 题 迎刃而解 ,大 量 机 器 学 习 / 模 式 识 别 的 算法 得 以 快速 用 MapReduce 
框架 并 行 化 ,被 广泛 用 在 搜索 .广告 .自然 语言 处 理 . 个 性 化 推荐 .安全 等 业务 中 。 

相 比 而 言 ,上 述 的 机 器 学 习 / 模 式 识 别 算法 往往 都 是 迭代 型 的 计算 ,一 般 会 迭代 几 十 至 
几 百 轮 , 那 么 在 Hadoop 上 就 是 连续 的 几 十 至 几 百 个 串 行 的 任务 ,前 后 两 个 任务 之 间 都 要 经 
过 大 量 的 IO 来 传递 数据 。 据 不 完全 统计 ,多 数 的 迭代 型 算法 在 Hadoop 上 的 耗 时 ,IO 占 了 
80% 左 右 , 如 果 可 以 省 掉 这 些 IO 开销 ,那么 对 计算 速度 的 提升 将 是 巨大 的 ,因此 业界 兴起 
了 一 股 基于 内 存 计算 的 潮流 ,而 Spark 则 是 这 方面 的 佼佼 者 。 它 提出 了 RDD 的 概念 ,通过 
对 RDD 的 使 用 将 每 轮 的 计算 结果 分 布 式 地 放 在 内 存 中 ,下 一 轮 直 接 从 内 存 中 读 取 上 一 轮 
的 数据 ,节省 了 大 量 的 IO 开销 。 同 时 它 提供 了 比 Hadoop 的 MapReduce 方式 更 加 丰富 的 
数据 操作 方式 .有 些 需 要 分 解 成 几 轮 的 Hadoop 操作 ,可 在 Spark 里 一 轮 实 现 。 因 此 对 于 机 
器 学 习 / 模 式 识别 等 迭代 型 计算 , 比 起 Hadoop 平台, 在 Spark 上 的 计算 速度 往往 会 有 几 售 
到 几 十 倍 的 提升 。 另 一 方面 ,Spark 的 设计 初衷 就 是 想 兼顾 MapReduce 模式 和 迭代 型 计 
算 , 因 此 老 的 MapReduce 计算 也 可 以 迁移 至 Spark 平台 。 由 于 Spark 对 Hadoop 计算 的 兼 
容 , 以 及 对 迭代 型 计算 的 优异 表现 ,成 熟 之 后 的 Spark 平台 得 到 迅速 的 普及 。 

人 们 逐渐 发 现 ,Spark 所 具有 的 优点 ,可 以 扩展 到 更 多 的 领域 ,现在 Spark 已 经 向 通用 
多 功能 大 数据 平台 的 方向 迈进 。 为 了 让 Spark 可 以 用 在 数据 仓库 领域 .开发 者 们 推出 了 
Shark , 它 在 Spark 的 框架 上 提供 了 类 SQL 查询 接口 ,与 Hive QL 完全 兼容 ,但 最 近 被 用 户 
体验 更 好 的 Spark SQL 所 取代 。Spark SQL 涵盖 了 Shark 的 所 有 特性 ,并 能 够 加 速 现 有 
Hive 数据 的 查询 分 析 , 以 及 支持 直接 对 原生 RDD 对 象 进行 关系 查询 ,显著 降低 了 使 用 门 
槛 。 在 实时 计算 领域 ,Spark streaming 项 目 构建 了 Spark 上 的 实时 计算 框架 , 它 将 数据 流 
切 分 成 小 的 时 间 片 段 (例如 几 秒 ) ,批量 执行 。 得 益 于 Spark 的 内 存 计算 模式 和 低 延 时 执行 
引擎 ,在 Hadoop 上 做 不 到 的 实时 计算 ,在 Spark 上 变 得 可 行 。 虽然 时 效 性 相 比 专门 的 实时 
处 理 系统 有 一 点 儿 差 距 , 但 也 可 用 于 不 少 实时 / 准 实 时 场景 。 另 外 ,Spark 上 还 有 图 模型 领 
域 的 Bagel, 其 实 就 是 Google 的 Pregel 在 Spark 上 的 实现 。 它 提供 基于 图 的 计算 模式 ,后 
来 被 新 的 Spark 图 模型 API 一 一 GraphX 所 替代 。 

大 数据 平台 极 大 地 提高 了 业界 的 生产 力 ,使 得 海量 数据 的 整合 .存储 、 计 算 、 分 析 变 得 更 
加 容易 和 高 效 。 通 过 与 这 些 平台 的 集成 .可 以 快速 实现 数据 资源 的 整合 .发掘 数据 的 价值 。 
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4.2 大 数据 与 存储 架构 的 整合 
4.2.1 传统 存储 架构 


在 企业 建立 初期 ,用 户 的 数据 规模 并 不 大 ,存储 需求 也 相对 简单 。 人 们 一 般 是 采用 
DAS 直 连 存储 的 架构 方案 。 这 种 存储 方案 的 服务 器 结构 如 同 PC 架构 ,外 部 数据 存储 设备 
(如 磁盘 阵列 、 磁 带 机 、 光 盘 机 等 ) 都 直接 挂 接 在 服务 器 内 部 总 线 上 ,数据 存储 设备 是 整个 服 
务 器 结构 的 一 部 分 。DAS 的 这 种 直 连 方式 可 以 解决 单 台 服务 器 的 存储 扩展 、 高 性 能 传输 需 
求 ,同时 可 以 构建 基于 磁盘 阵列 的 双 机 高 可 用 系统 ,满足 数据 高 可 用 的 需求 。 但 由 于 这 种 存 
储 技术 是 把 设备 直接 挂 在 服务 器 上 , 随 着 需求 的 不 断 增 大 , 越 来 越 多 的 设备 添加 到 网 络 环境 
中 ,导致 服务 器 和 存储 独立 数量 较 多 ,资源 利用 率 低下 ,使 得 数据 共享 受到 严重 的 限制 。 因 
此 适用 在 一 些小 型 网 络 应 用 中 。 

随 着 企业 的 发 展 ,应 用 的 复杂 度 不 断 加 大 ,需要 在 不 同 操作 系统 间 共 享 文件 和 应 用 ,并 
提高 性 能 和 存储 的 扩展 性 。NAS 网 络 存储 技术 改进 了 DAS 存储 技术 ,通过 标准 的 拓扑 网 
络 , 可 以 无 须 服务 器 直接 与 存储 设备 连接 ,不 依赖 于 通用 的 操作 系统 ,所 以 存储 容量 可 以 很 
好 地 扩展 ,对 于 原来 的 服务 器 性 能 也 没有 任何 的 影响 。 但 是 NAS 不 适合 数据 库存 储 (不 适 
合 1/O 密集 型 应 用 ) ,另外 传输 速率 低 成 为 瓶颈 。 

NAS 存储 架构 图 如 图 4-4 所 示 。 


Network Attached Storage 











Clients 


LAN 





NAS Storage Server 


图 4-4 NAS 网 络 存储 架构 图 


在 企业 中 , 某 些 核心 应 用 对 性 能 和 可 靠 性 有 更 高 的 要 求 , 但 是 NAS 存储 技术 方案 的 传 
输 速 度 和 效率 是 有 限 的 。FC 光纤 通道 技术 出 现 后 ,SAN( 存 储 区 域 网 络 ) 得 到 了 快速 发 展 ， 
在 企业 中 得 到 了 很 好 的 应 用 。SAN 采用 高 速 光 纤 通 道 作 为 传输 体 ,突破 传统 网 络 的 瓶颈 ， 
在 服务 器 与 存储 设备 之 间 直 接 高 速 数 据 传输 ,满足 了 企业 对 更 高 性 能 和 可 靠 性 的 需求 。 
SAN 的 架构 更 适合 高 端 应 用 领域 。SAN 的 架构 图 如 图 4-5 所 示 。 
由 于 大 数据 技术 的 发 展 ,传统 的 存储 系统 由 于 没有 采用 分 布 式 的 文件 系统 ,无 法 将 所 有 
访问 压力 平均 分 配 到 多 个 存储 节点 .因而 在 存储 系统 与 计算 系统 之 间 存 在 着 明显 的 传输 瓶 
颈 ,由 此 而 带 来 单 点 故障 等 多 种 后 续 问 题 ,而 集群 存储 正 是 解决 这 一 问题 ,满足 新 时 代 要 求 
的 一 剂 良 药 。 而 传统 存储 器 暴露 出 的 问题 也 日 益 明显 。 

性 能 问题 : 由 于 数据 量 的 激增 ,数据 的 索引 效率 也 变 得 越 来 越 为 人 们 关注 。 而 动 辑 上 





第 4 章 大 数据 的 数据 整合 、 交 换 与 交易 







光纤 通道 


光纤 磁带 库 光纤 磁盘 阵列 
图 4-5 SAN 存储 区 域 网 络 架构 图 


TB 的 数据 ,甚至 是 几 百 TB 的 数据 ,在 索引 时 往往 需要 花 上 几 分 钟 的 时 间 。 

成 本 激增 : 在 大 型 项 目 中 ,前 端 图 像 信息 采集 点 过 多 , 单 台 服务 器 承载 量 有 限 , 就 造成 
需要 配置 几 十 台 其 至 上 百 台 服务 器 的 状况 ,这 就 必然 导致 建设 成 本 、 管 理 成 本 、 维 护 成 本 、 能 
耗 成 本 的 急剧 增加 。 

磁盘 碎片 问题 : 由 于 视频 监控 系统 往往 采用 回 滚 写 和 方式 ,这 种 无 序 的 频繁 读 写 操作 ， 
导致 了 磁盘 碎片 的 大 量 产 生 。 随 着 使 用 时 间 的 增加 ,将 严重 地 影响 整体 存储 系统 的 读 写 性 
能 ,甚至 导致 存储 系统 被 锁定 为 只 读 , 而 无 法 写 人 新 的 视频 数据 。 


4.2.2 集群 存储 的 发 展 


由 于 目前 一 些 存 储 应 用 受 容量 可 扩展 性 ,性 能 可 扩展 性 、 可 用 性 、 可 管理 性 的 挑战 ,“ 催 
生 ”" 了 许多 存储 集群 系统 的 产生 。 集 群 存储 是 将 每 个 存储 设备 作为 一 个 存储 节点 ,通过 高 速 
互联 网 络 连接 起 来 ,将 数据 分 散 开 存 储 在 多 台独 立 的 设备 上 ,这 些 设备 可 以 独立 运作 ,相互 
之 间 又 可 以 合作 。 每 个 VO 节点 不 仅 可 以 访问 本 节点 的 存储 空间 ,还 可 以 访问 其 他 节点 的 
存储 空间 。 所 有 存储 节点 的 空间 以 一 个 虚拟 磁盘 的 方式 提供 给 客户 端 用 户 。 组 成 集群 存储 
可 以 是 块 级 别 的 SAN 集群 文件 级 别 的 NAS 集群 和 并 行文 件 系统 的 集群 。 

集群 存储 有 效 地 提升 了 存储 设备 的 容量 可 扩展 性 、 性 能 稳定 性 及 系统 可 管理 性 。 集 群 
存储 非常 适合 那些 持续 增长 的 所 有 规模 的 不 同 环境 ,实现 即时 供应 存储 ,避免 破坏 性 升级 和 
增加 管理 的 复杂 性 。 在 大 型 数据 中 心 或 高 性 能 计算 中 心 的 集群 存储 解决 方案 ,具有 高 性 价 
比 ,简单 .易于 维护 ,高 可 靠 性 /可 用 性 ,具有 非常 高 的 整合 带宽 等 优点 。 集 群 存储 最 典型 的 
系统 是 Google 体系 结构 , 它 是 大 量 机 器 内 硬盘 的 组 合 . 含 899 个 机 架 ( 每 架 80 台 PC, 每 台 
PC 有 两 个 硬盘 ), 共 79 112 台 PC, 有 158 224 个 硬盘 ,总 容量 为 6180 TB。 

近 几 年 逐渐 兴起 的 集群 存储 技术 ,不仅 轻松 突破 了 SAN 的 性 能 瓶颈 ,而 且 可 以 实现 性 
能 与 容量 的 线性 扩展 ,这 对 于 追求 高 性 能 、 高 可 用 性 的 企业 用 户 来 说 是 一 个 新 选择 。 虽 然 集 
群 存储 在 处 理 非 结 构 化 数据 方面 优势 十 分 明显 ,但 从 目前 情况 来 看 .集群 存储 不 太 可 能 在 短 
时 间 内 完全 取代 传统 的 网 络 存储 方式 ,SAN 和 NAS 仍 会 有 用 武之 地 。 
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需要 强调 的 是 ,虚拟 化 是 实现 云 计算 远景 目标 的 一 项 核心 技术 ,因为 云 计算 本 身 就 是 一 
个 能 提供 虚拟 化 和 高 可 用 性 的 新 一 代 计算 平台 。 从 目前 的 市 场 情况 看 ,服务 器 虚拟 化 已 经 
如 火 如 蔡 , 而 存储 虚拟 化 的 发 展 相对 慢 一 些 。 存 储 虚拟 化 是 一 种 贯穿 于 整个 IT 环境 .用 于 
简化 本 来 可 能 会 相对 复杂 的 底层 基础 架构 的 技术 。 存储 虚拟 化 的 思想 是 将 资源 的 逻辑 映像 
与 物理 存储 分 开 , 从 而 为 系统 和 管理 员 提 供 一 幅 简 化 、 无 颖 的 资源 虚拟 视图 。 

对 于 用 户 来 说 ,虚拟 化 的 存储 资源 就 像 是 一 个 巨大 的 “存储 池 ”, 用 户 不 会 看 到 具体 的 磁 
盘 、 磁 带 , 也 不 必 关 心 自己 的 数据 经 过 哪 一 条 路 径 通 往 哪 一 个 具体 的 存储 设备 。 这 样 做 的 好 
处 是 把 许多 零散 的 存储 资源 整合 起 来 ,从 而 提高 整体 利用 率 , 同 时 降低 系统 管理 成 本 。 与 存 
储 虚拟 化 配套 的 资源 分 配 功能 具有 资源 分 割 和 分 配 能 力 , 可 以 依据 服务 水 平 协议 的 要 求 对 
整合 起 来 的 存储 池 进行 划分 ,以 最 高 的 效率 .最低 的 成 本 来 满足 各 类 不 同 应 用 在 性 能 和 容量 
等 方面 的 需求 。 特 别 是 虚拟 磁带 库 , 对 于 提升 备份 .恢复 和 归档 等 应 用 服务 水 平 起 到 了 非常 
显著 的 作用 , 极 大 地 节省 了 企业 的 时 间 和 金钱 。 

在 当今 的 企业 运行 环境 中 ,数据 的 增长 速度 非常 快 ,而 企业 管理 数据 能 力 的 提高 速度 总 
是 远 远 落 在 后 面 。 通 过 虚拟 化 ,许多 既 消耗 时 间 又 多 次 重复 的 工作 ,例如 备份 /恢复 .数据 归 
档 和 存储 资源 分 配 等 ,可 以 通过 自动 化 的 方式 来 进行 ,大 大 减少 了 人 工作 业 。 因 此 ,通过 将 
数据 管理 工作 纳入 单一 的 自动 化 管理 体系 ,存储 虚拟 化 可 以 显著 地 缩短 数据 增长 速度 与 企 
业 数据 管理 能 力 之 间 的 差距 。 

只 有 网 络 级 的 虚拟 化 , 才 是 真正 意义 上 的 存储 虚拟 化 。 它 能 将 存储 网 络 上 的 各 种 品牌 
的 存储 子 系统 整合 成 一 个 或 多 个 可 以 集中 管理 的 存储 池 ( 存 储 池 可 跨 多 个 存储 子 系统 ), 并 
在 存储 池 中 按 需要 建立 一 个 或 多 个 不 同 大 小 的 虚 卷 ,并 将 这 些 虚 卷 按 一 定 的 读 写 授权 分 配 
给 存储 网 络 上 的 各 种 应 用 服务 器 。 这 样 就 达到 了 充分 利用 存储 容量 .集中 管理 存储 、 降 低 存 
储 成 本 的 目的 。 


4.2.3 基于 HDFS 的 集群 存储 


前 面 也 多 次 介绍 过 ,大 数据 存储 系统 所 基于 的 是 分 布 式 的 存储 架构 。 当 数据 集 超过 一 
个 单独 的 物理 计算 机 的 存储 能 力 时 , 便 有 必要 将 它 分 布 到 多 个 独立 的 计算 机 上 。 管 理 着 跨 
计算 机 网 络 存储 的 文件 系统 称 为 分 布 式 文件 系统 。Hadoop 的 分 布 式 文件 系统 称 为 
HDFS, 它 是 为 以 流 式 数 据 访问 模式 存储 超大 文件 而 设计 的 文件 系统 。HDFS 包含 几 个 特 
点 (区 别 于 普通 分 布 式 文件 系统 ): 高 容错 \ 高 吞吐 。 高 容错 可 以 使 得 系统 部 署 在 廉价 硬件 
上 ,而 高 吞吐 则 非常 适合 做 大 规模 数据 集 的 应 用 。HDFS 是 Hadoop 应 用 程序 运行 的 主要 
分 布 式 存储 。 一 个 HDFS 集群 包含 一 个 NameNode 来 管理 集群 文件 系统 的 元 数据 ,还 包含 
很 多 DataNode 来 实际 存储 数据 。 用 户 通 过 在 NameNode 中 找到 所 需 访 问 的 文件 的 元 数 
据 , 定 位 到 具体 存储 文件 数据 块 的 DataNode, 然 后 再 对 数据 块 进行 读 取 和 写 和 信 。 如 图 4-6 
所 示 为 HDFS 的 系统 结构 图 。 

HDFS 适合 做 : 

(1) 存储 大 文件 ,如 上 GB、TB 甚至 PB 的 大 文件 。 

(2) 一 次 写 入 ,多 次 读 取 。 并 且 每 次 作业 都 要 读 取 大 部 分 的 数据 。 

(3) 搭建 在 普通 商业 机 群 上 就 可 以 了 。 虽 然 这 些 机 器 会 经 常 宕 机 ,但 HDFS 有 良好 的 
自 容错 和 自 恢 复 机 制 ,不 需要 人 工 干 预 。 
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图 4-6 HDFS 系统 架构 图 


HDFS 不 适合 做 : 

(1) 实时 数据 获取 。 如 果 有 这 个 需求 可 以 用 HBase 分 布 式 数 据 库 。 

(2) 很 多 小 文件 的 情形 。 因 为 NameNode 要 存储 HDFS 的 元 数据 (比如 目录 的 树 状 结 
构 , 每 个 文件 的 文件 名 、ACL 长度.owner\ 文 件 内 容 存放 的 位 置 等 信息 ), 所 以 HDFS 上 文 
件 的 数目 受到 NameNode 内 存 的 限制 。 

(3) 并 发 环境 下 的 写 人 和 修改 。 

因此 需要 根据 具体 的 应 用 场景 来 选择 适合 该 场景 的 存储 架构 。 总 的 来 说 ,在 如 今 大 数 
据 爆炸 的 时 代 , 对 于 如 何 应 对 PB 级 别 的 数据 ,HDFS 分 布 式 存 储 是 这 个 时 代 的 产物 ,是 对 
大 数据 进行 存储 处 理 的 优秀 架构 。 


4.2.4 固态 硬盘 对 内 存 计算 的 支持 


固态 硬盘 (Solid State Disk 或 Solid State Driver, SSD) 是 一 种 以 内 存 作 为 永久 性 存储 
器 的 计算 机 存储 设备 。 虽 然 SSD 已 不 是 使 用 “ 碟 盘 "来 记 存 数 据 ,而 是 使 用 NAND Flash， 
但 是 人 们 依照 命名 习惯 ,仍然 称 其 为 固态 硬盘 或 固态 驱动 器 。 当 然 ,SSD 内 也 没有 用 来 驱 
动 旋转 的 马达 。 

1 分 类 

(1) 易 失 性 内 存 。 由 易 失 性 内 存 制 成 的 固态 硬盘 主要 用 于 临时 性 存储 。 因 为 这 类 内 存 
需要 靠 外 界 电力 维持 其 记忆 ,所 以 由 此 制 成 的 固态 硬盘 还 需要 配合 电池 才能 使 用 。 易 失 性 
内 存 ,例如 SDRAM. 具 有 访问 速度 快 的 特点 。 利 用 这 一 特点 ,可 以 将 需要 运行 的 程序 从 传 
统 硬盘 复制 到 固态 硬盘 中 ,然后 再 交 由 计算 机 运行 ,这 样 可 以 避免 由 于 传统 硬盘 的 引导 延 
迟 、 搜 索 延 迟 等 对 程序 以 及 系统 造成 的 影响 。 

由 易 失 性 内 存 制 成 的 固态 硬盘 通常 会 依靠 电池 来 保证 完成 应 急 备 份 : 当 电 源 意 外 中 断 
时 , 靠 电池 驱动 的 这 类 固态 硬盘 可 以 有 足够 的 时 间 将 数据 转移 到 传统 硬盘 中 。 当 电力 恢复 
后 ,再 从 传统 硬盘 中 恢复 数据 。 

(2) 非 易 失 性 内 存 。 非 易 失 性 内 存 的 数据 访问 速度 介 于 易 失 性 内 存 和 传统 硬盘 之 间 。 
和 易 失 性 内 存 相 比 , 非 易 失 性 内 存 一 经 写 人 数据 ,就 不 需要 外 界 电 力 来 维持 其 记忆 ,因此 更 
适 于 作为 传统 硬盘 的 替代 品 。 
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闪存 当中 的 NAND Flash 是 最 常见 的 非 易 失 性 内 存 。 小 容量 的 NAND 闪存 可 被 制作 
成 带 有 USB 接口 的 移动 存储 设备 , 亦 即 人 们 常 说 的 *“U 盘 ”。 随 着 生产 成 本 的 下 降 , 将 多 个 
大 容量 闪存 模块 集成 在 一 起 , 制 成 以 闪存 为 存储 介质 的 固态 硬盘 已 经 是 目前 的 趋势 。 

目前 用 来 生产 固态 硬盘 的 NAND Flash 有 三 种 ,分 别 是 单 层 式 存储 (SLC) 、 多 层 式 存 

储 C(MLC, 通 常用 来 指称 双 层 式 存储 ) .三 层 式 存储 CTLC)。 有 些 厂 商 也 称 TLC 为 3-bit 
MLC。SLC、MLC、TLC 的 读 写 速度 依 序 从 快 至 慢 ( 约 4:2:1), 使 用 寿命 依 序 从 长 至 短 
( 约 6:3:2), 成 本 依 序 从 高 至 低 , 需 要 纠 错 比 特 数 (ECC) 则 是 相反 地 从 低 至 高 (同一 制程 
下 1:2:4。 不 过 ECC 也 受制 程 的 影响 ,同一 种 芯片 , 越 小 尺度 的 制程 需要 越 多 的 纠 错 比 
特 )。 固 态 硬盘 的 主流 从 SLC 芯片 转 到 MLC 芯片 ,促成 了 2011 年 的 大 降价 ,固态 硬盘 因此 
普及 。 
由 于 因为 SLC 的 速度 较 快 但 成 本 过 高 ,用 于 服务 器 的 企业 级 SSD 都 改 用 了 MLC。 
TLC 因为 速度 较 慢 但 成 本 低 , 原本 只 用 来 做 U 盘 ; 不 过 2012 年 下 半年 ,SAMSUNG 首先 
推出 使 用 TLC 的 消费 级 固态 硬盘 (型 号 840 系列 ) ,固态 硬盘 名 牌 Plextor 也 打算 于 2013 年 
量 产 TLC 产品 作为 低级 廉价 市 场 的 主力 ,然而 TLC 的 寿命 .速度 和 可 靠 性 (错误 率 ) 成 为 消 
费 者 的 最 大 疑虑 。 生 产 商会 在 TLC SSD 使 用 更 先进 的 主 控 及 更 多 预 留 空间 (OP) 来 处 理 这 
些 问 题 。 

TLC 的 错误 率 已 经 很 高 ,需要 使 用 先进 的 主 控 及 大 量 的 空间 进行 纠 错 。 如 果 发 展 4-bit 
MLC 会 令 错 误 率 升 得 更 高 .同时 寿命 更 短 。 三 星 已 量 产 两 代 3D 垂直 闪存 ,利用 3D 堆栈 增 
加 存储 密度 。 

2. 优点 

和 传统 硬盘 相 比 ,固态 硬盘 具有 低 功 耗 .无 噪声 .抗震 动 ,低热 量 的 特点 。 这 些 特点 不 仅 
使 得 数据 能 更 加 安全 地 得 到 保存 ,而 且 也 延长 靠 电池 供电 的 设备 的 连续 运转 时 间 。 例 如 ,三 
星 电子 于 2006 年 3 月 推出 的 容量 为 32GB 的 固态 硬盘 ,采用 和 传统 微 硬盘 相同 的 1. 8 英寸 
规格 。 其 耗 电量 只 有 常规 硬盘 的 5% , 写 人 速度 是 传统 硬盘 的 1.5 倍 , 读 取 速 度 是 传统 硬盘 
的 3 倍 ,并 且 没 有 任何 噪声 。 其 后 固态 硬盘 取得 了 飞速 的 发 展 。2015 年 ,三 星 在 “闪存 高 峰 
会 "上 发 表 容量 高 达 16TB 的 2. 5 英寸 固态 硬盘 (SSD)PM1633a, 其 存储 容量 甚至 高 过 于 传 
统 硬盘 ,接口 是 SAS 16Gb/s。 最 初 的 固态 硬盘 容量 少 、 价 钱 高 ,性 价 比 远 不 及 传统 的 机 器 
性 硬盘 。 但 随 着 固态 硬盘 的 不 断 发 展 ,固态 硬盘 的 容量 已 有 实用 性 ,价钱 明显 下 滑 之 下 ,已 
为 传统 硬盘 市 场 制造 危机 。 

内 存 作 为 计算 机 的 重要 配件 之 一 , 它 是 硬盘 与 CPU 之 间 进 行 沟通 的 桥梁 。 它 主要 用 
于 暂时 存放 CPU 中 的 运算 数据 ,以 及 与 硬盘 等 外 部 存储 器 交换 的 数据 。 由 于 计算 机 中 所 
有 程序 的 运行 都 是 在 内 存 中 进行 的 ,因此 内 存 的 性 能 以 及 稳定 运行 对 计算 机 的 影响 非常 大 。 
在 如 今 数据 量 如 此 庞大 的 情景 下 ,我 们 在 关注 大 数据 集 存 储 的 同时 还 要 关注 对 数据 处 理 的 
速度 ,在 内 存 资源 有 限 和 成 本 高 昂 的 情况 下 ,有 了 SSD 对 内 存 计算 的 支持 ,我 们 对 大 数据 进 
行 处 理 的 速度 又 有 了 进一步 的 提升 。 所 以 .SSD 是 在 我 们 做 大 数据 存储 时 的 一 种 选择 。 相 
信 在 不 久 的 将 来 , 随 着 SSD 技术 的 进一步 发 展 , 对 数据 的 读 取 写 入 的 速度 会 得 到 更 大 的 提 
高 ,从 而 我 们 在 大 数据 处 理 上 的 效率 会 得 到 更 大 的 提升 。 
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4.3 大 数据 与 网 络 架 构 的 发 展 


大 数据 技术 平台 是 基于 现 有 网 络 架 构 来 实现 分 布 式 计算 的 。 如 图 4-7 所 示 是 一 个 典型 


的 云 计算 环境 下 的 企业 级 网 络 架 构 。 篇 幅 所 限 ,这 里 不 展开 详细 介绍 。 
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图 4-7 典型 的 云 计算 环境 下 的 企业 级 网 络 架构 


为 了 进一步 满足 大 数据 应 用 持续 的 要 求 ,需要 对 现 有 企业 网 络 架 构 进 行 升级 ,思科 公司 
提出 的 统一 的 以 太 网 结构 (Unified Ethernet Fabrics, UEF) 或 正在 兴起 的 软件 定义 网 络 
(Software Defined Network ,SDN) 是 解决 这 个 问题 的 技术 趋势 。 

1. 统一 的 以 太 网 结构 

统一 的 以 太 网 架构 (UEF) 正 快速 发 展 , 它 很 适合 云 计 算 和 大 数据 的 需求 。UEF 是 一 个 
更 扁平 和 集中 的 网 络 , 它 是 架构 在 各 种 网 络 设备 上 的 一 个 虚拟 化 网 络 平台 。UEF 的 特点 
如 下 。 

(1) 集中 的 网 络 架 构 。 减 少 了 网 络 设备 的 复杂 性 ,以 及 与 多 个 Fabrics、 分 开 的 网 络 适 
配器 和 布线 相 联系 的 大 量 成 本 花费 。 

(2) 网 络 扁平 化 。 网 络 架 构 的 扁平 化 设计 最 大 化 地 提升 了 网 络 效率 .减少 了 拥塞 ,并 通 
过 产生 用 于 负载 均衡 和 宛 余 的 第 二 层 网 络 路 径 , 解 决 了 扫描 树 的 限制 。 

(3) 虚拟 化 。UEF 通过 虚拟 底盘 的 体系 架构 ,统一 了 多 个 交换 机 的 访问 ,逻辑 上 这 些 
设备 被 当 作 一 个 设备 来 管理 。 这 就 产生 了 虚拟 交换 机 的 资源 池 , 免 除了 手动 配置 的 必要 。 
这 个 设计 提供 了 任何 设备 延迟 的 可 预测 的 大 数据 集群 服务 器 之 间 的 流量 带宽 。 

(4) 多 个 路 由 路 径 选 择 。 通 过 利用 通过 网 络 的 多 个 路 径 并 连续 决定 最 有 效 的 路 由 ， 
UEF 能 实现 全 链接 的 利用 。 

(5) 可 靠 性 。UEF 带 来 了 分 布 式 网 络 , 对 失效 更 有 弹性 和 容错 能 力 。 
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2. 软件 定义 网 络 

软件 定义 网 络 (SDN) 能 够 将 网 络 控制 从 物理 基础 设施 中 解 耦 出 来 ,通过 软件 和 虚拟 化 
在 更 加 全 局 的 角度 对 网 络 设备 进行 控制 。 不 同 的 网 络 设备 通过 开放 的 接口 来 进行 整合 ,如 
OpenFlow, 一 个 可 扩展 的 、 可 能 是 开源 的 网 络 操作 系统 架构 在 OpenFlow 交换 机 上 ,通过 很 
好 定义 的 API 实现 网 络 操作 系统 对 应 用 的 支撑 。SDN 和 OpenFlow 标准 被 认为 是 网 络 领 
域 中 的 重要 发 展 趋势 ,它们 已 经 成 为 谷歌 .Facebook 和 雅虎 等 云 服务 提供 商 和 大 型 网 络 公 
司 简化 或 自动 化 网 络 配 置 的 一 种 主流 趋势 。 用 户 不 再 需要 手动 操作 网 络 中 的 任何 交换 机 或 
路 由 器 , 即 可 快速 添加 和 配置 更 多 的 网 络 功能 。 

SDN 是 一 个 新 的 网 络 结构 ,通过 将 传统 网 络 设备 紧 耦合 的 架构 分 解 为 应 用 、 控 制 、 转 发 
独立 的 三 层 , 并 实现 可 编程 控制 。 传 统 网 络 每 个 路 由 或 者 交换 设备 都 是 一 个 控制 和 数据 的 
合体 ,数据 包 由 分 布 式 设备 自行 决定 操作 方式 ,最 后 通过 各 个 设备 的 合作 达到 目的 。 在 
SDN 架构 中 ,控制 层 和 数据 层 分 离 ,数据 层 设备 只 管 数据 的 转发 操作 ,控制 功能 被 集中 转移 
到 称 为 控制 器 的 服务 器 ,高 层 的 应 用 ,底层 的 转发 设备 被 抽象 为 多 个 逻辑 实体 。 控 制 器 负责 
收集 全 网 信息 ,进行 决策 ,并 向 数据 层 设备 下 发 策略 ,每 个 数据 层 设备 按照 这 些 策略 对 不 同 
数据 包 执 行 操 作 , 未 来 网 络 架构 如 图 4-8 所 示 。 
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图 4-8 未 来 网 络 架 构 


为 了 便于 第 三 方 通过 编程 方式 对 网 络 资源 进行 动态 分 配 , 需 要 对 网 络 进行 抽象 以 屏蔽 
底层 复杂 度 , 为 上 层 提供 简单 的 ,标准 化 的 \ 高 效 的 网 络 资源 逻辑 或 者 虚拟 实体 : 第 一 ,使 第 
三 方 编程 可 以 独立 于 复杂 的 物理 网 络 结构 ; 第 二 ,提高 网 络 资源 在 整 网 角度 的 利用 率 ; 第 
三 ,实现 网 络 资源 的 快速 和 动态 部 署 , 提 高 网 络 的 弹性 ,降低 网 络 调度 的 颗粒 度 。 因 此 ,在 未 
来 网 络 架 构 中 ,采用 类 似 于 云 架 构 将 计算 和 存储 资源 虚拟 化 的 方式 ,应 用 NFV 技术 实现 网 
络 资源 的 虚拟 化 。 

由 此 可 见 ,未 来 网 络 架构 增强 了 网 络 的 可 控 性 ,降低 了 网 络 资源 管理 的 颗粒 度 , 增 强 了 
网 络 的 弹性 ,提高 了 网 络 资源 的 利用 率 , 第 三 方 可 以 根据 不 同业 务 需 求 对 网 络 资源 进行 动态 
和 实时 的 调配 ,网 络 资源 实现 了 虚拟 化 和 切片 化 (类 似 于 虚拟 专用 网 ) ,总 的 来 说 ,这 种 架构 
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让 客户 拥有 更 多 的 控制 能 力 , 继 承 了 互联 网 开放 创新 的 基因 ,可 望 突破 互联 网 产业 发 展 
瓶颈 。 


4.4 大 数据 与 虚拟 化 技术 的 整合 


在 计算 机 中 ,虚拟 化 (Virtualization) 是 一 种 资源 管理 技术 ,是 将 计算 机 的 各 种 实体 资 
源 ,如 服务 器 网络、 内 存 及 存储 等 ,予以 抽象 .转换 后 呈现 出 来 ,打破 实体 结构 间 的 不 可 切割 
的 障碍 ,使 用 户 可 以 用 比 原本 的 组 态 更 好 的 方式 来 应 用 这 些 资源 。 这 些 资 源 的 新 虚拟 部 分 
是 不 受 现 有 资源 的 架设 方式 ,地 域 或 物理 组 态 所 限制 的 。 一 般 所 指 的 虚拟 化 资源 包括 计算 
能 力 和 资料 存储 。 在 实际 的 生产 环境 中 ,虚拟 化 技术 主要 用 来 解决 高 性 能 的 物理 硬件 产能 
过 剩 和 老 的 旧 的 硬件 产能 过 低 的 重组 重用 ,透明 化 底层 物理 硬件 ,从 而 最 大 化 地 利用 物理 
硬件 。 

虚拟 化 技术 与 多 任务 以 及 超 线 程 技术 是 完全 不 同 的 。 多 任务 是 指 在 一 个 操作 系统 中 多 
个 程序 同时 运行 ; 而 在 虚拟 化 技术 中 , 则 可 以 同时 运行 多 个 操作 系统 ,而 且 每 一 个 操作 系统 
中 都 有 多 个 程序 运行 ,每 一 个 操作 系统 都 运行 在 一 个 虚拟 的 CPU 或 者 是 虚拟 主机 上 ; 而 超 
线程 技术 只 是 单 CPU 模拟 双 CPU 来 平衡 程序 运行 性 能 ,这 两 个 模拟 出 来 的 CPU 是 不 能 
分 离 的 ,只 能 协同 工作 。 

虚拟 化 技术 是 一 套 解 决 方案 。 完 整 的 情况 需要 CPU 主板 芯片 组 .BIOS 和 软件 的 支 
持 , 例 如 VMM 软件 或 者 某 些 操作 系统 本 身 。 即 使 只 是 CPU 支持 虚拟 化 技术 ,在 配合 
VMM 的 软件 情况 下 ,也 会 比 完全 不 支持 虚拟 化 技术 的 系统 有 更 好 的 性 能 。 虚 拟 化 技术 一 
般 分 为 全 虚拟 化 和 半 虚 拟 化 技术 。 

1. 全 虚拟 化 

全 虚拟 化 (Full Virtualization) 也 称 为 原始 虚拟 化 技术 ,如 图 4-9 所 示 。 该 模型 使 用 虚 
拟 机 协调 guest 操作 系统 和 原始 硬件 ,VMM 在 guest 操作 系统 和 裸 硬件 之 间 用 于 工作 协 
调 ,一 些 受 保护 指令 必须 由 Hypervisor( 虚 拟 机 管理 程序 ) 来 捕获 处 理 。 

全 虚拟 化 的 运行 速度 要 快 于 硬件 模拟 ,但 是 性 能 方面 不 如 裸 机 ,因为 Hypervisor 需要 
占用 一 些 资源 。 

2. 半 虚 拟 化 

半 虚 拟 化 (Para Virtualization) 是 另 一 种 类 似 于 全 虚拟 化 的 技术 ,如 图 4-10 所 示 。 它 
使 用 Hypervisor 分 享 存 取 底层 的 硬件 ,但 是 它 的 guest 操作 系统 集成 了 虚拟 化 方面 的 代 
码 。 该 方法 无 须 重新 编译 或 引起 陷阱 ,因为 操作 系统 自身 能 够 与 虚拟 进程 进行 很 好 的 
协作 。 


Modified | Modified 
Guest OS | Guest OS 2 Guest OS | Guest OS 
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图 4-9 全 虚拟 化 模型 图 4-10 半 虚 拟 化 模型 
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半 虚 拟 化 需要 guest 操作 系统 做 一 些 修改 ,使 guest 操作 系统 意识 到 自己 是 处 于 虚拟 化 
环境 的 ,但 是 半 虚 拟 化 提供 了 与 原 操作 系统 相近 的 性 能 。 

大 数据 的 虚拟 化 是 当前 大 数据 以 及 Hadoop 社区 的 一 个 发 展 趋势 。 随 着 全 球 企业 IT 
虚拟 化 的 比例 突破 三 分 之 二 ,以 虚拟 化 为 基础 的 软件 定义 的 数据 中 心 对 企业 来 讲 变 得 越 来 
越 普 及 和 重要 ,大 数据 在 这 样 的 浪潮 下 如 何 影 响 和 融入 现 有 企业 数据 中 心 的 基础 架构 变 成 
了 现实 的 挑战 。 

(1) 虚拟 化 能 够 显著 提升 服务 器 的 利用 率 , 通 过 整合 服务 器 资源 达到 更 佳 的 利用 率 。 

(2) 以 x86 服务 器 为 代表 的 虚拟 化 本 身 的 拥有 成 本 相对 小 型 计算 机 和 软 硬 件 一 体 设备 
来 讲 , 更 经 济 ,而 且 性 能 表现 一 点 儿 也 不 逊色 ,横向 扩展 更 是 巨大 优势 。 

(3) 虚拟 化 在 云 计算 (无 论 是 公有 云 还 是 私有 云 ) 中 承担 着 很 重要 的 基础 工作 。 没 有 虚 
拟 化 技术 , 云 计 算 的 弹性 和 多 租户 往往 难以 得 到 真正 落实 。 

(4) 虚拟 化 已 经 可 以 支撑 企业 关键 应 用 (如 ERP .邮件 服务 器 ,业务 生产 数据 库 等 ) ,这 
证 明 在 虚拟 化 和 性 能 稳定 性 之 间 已 经 不 再 需要 二 选 一 。 虚 拟 化 迈 向 全 面 成 熟 的 标志 已 经 
树立 。 

显然 企业 虚拟 化 的 进程 不 会 停止 ,目前 包括 VMware 在 内 的 领导 厂商 都 在 拓展 虚拟 化 
2.0。 不 仅 是 服务 器 (计算 资源 ) 虚 拟 化 ,包括 存储 和 网 络 等 过 去 相对 难以 直接 被 虚拟 化 所 用 
的 孤岛 都 出 现 了 最 前 沿 的 创新 推动 .例如 “软件 定义 数据 中 心 存 储 虚拟 化 “网 络 虚拟 化 ” 
等 热点 ,都 已 经 出 现 了 具体 的 产品 和 解决 方案 。 

大 数据 的 虚拟 化 ,是 将 大 数据 的 工作 负载 运行 或 迁移 到 虚拟 化 的 基础 环境 中 。 除 了 自 
然 地 继承 以 上 所 谈 到 的 虚拟 化 的 普遍 优点 ,值得 一 提 的 有 以 下 几 个 特殊 的 好 处 。 

(1) 由 于 大 数据 基础 架构 在 起 步 时 往往 难以 确定 需要 多 少 计算 和 数据 节点 ,这 些 节 点 
用 物理 服务 器 需要 一 一 去 堆 。 如 果 没 有 专家 团队 支持 ,将 会 非常 耗 时 费力 ,而 且 将 来 扩展 非 
常 不 方便 ,利用 率 极 低 ,管理 效率 问题 相当 突出 。 虚 拟 化 不 仅 可 以 快速 部 署 集群 ,更 可 以 灵 
活 管理 它们 ,同时 显著 提高 利用 率 。 

(2) 大 数据 混合 使 用 共享 存储 和 本 地 存储 ,用 来 提高 性 能 。 虚 拟 化 可 以 完全 满足 这 些 
需求 ,并 且 让 我 们 灵活 地 扩展 和 设计 策略 。 

(3) 虚拟 化 可 以 将 大 数据 从 底层 向 上 对 外 形成 多 租户 和 数据 分 析 服 务 , 很 好 地 隔离 计 
算 环境 ,为 推动 大 数据 即 服务 黄 定 基础 。 

(4) 虚拟 化 还 有 利于 整合 和 集成 其 他 的 数据 应 用 在 统一 的 虚拟 化 平台 上 ,大 大 降低 IT 
基础 架构 的 复杂 度 和 运 维 成 本 。 

存储 虚拟 化 ,可 以 形成 统一 的 存储 池 , 屏 项 各 个 存储 设备 的 异 构 , 实 现 阵 列 高 可 用 ,以 及 
在 线 数据 迁移 等 。 对 于 大 量 的 非 结 构 化 的 数据 的 存储 ,通过 存储 的 虚拟 化 网 关 , 用 户 不 再 关 
心 文件 存储 的 路 径 ,通过 单一 位 置 提供 的 文件 名 就 可 以 访问 。 存 储 虚 拟 化 是 构建 集群 存储 
的 基础 ,能 够 支持 实现 海量 数据 的 动态 分 级 存储 。 

网 络 虚 拟 化 ,可 以 将 两 台 或 多 台 设 备 虚拟 为 一 台 设备 ,实现 统一 转发 .统一 管理 ,并 实现 
跨 设备 的 链 路 捆绑 ,简化 网 络 协议 的 部 署 ,大 大 缩短 设备 和 链 路 收敛 时 间 ( 毫 秒 级 ), 以 链 路 
负载 分 担 方 式 工作 .利用 率 大 大 提升 。 网 络 虚拟 化 是 实现 SDN 的 基础 技术 。 

主机 的 虚拟 化 技术 ,可 以 实现 “一 分 多 ”, 即 将 一 台 服 务 器 虚拟 成 多 台 虚 拟 机 ,在 进行 
Hadoop 平台 的 安装 和 实验 阶段 ,可 以 采取 这 样 的 方法 来 进行 。 主 机 虚拟 化 技术 也 可 以 实 


| 
现 “ 多 合 一 ”, 将 多 台 服 务 器 虚拟 成 一 个 虚拟 服务 器 ,实现 不 同 大 数据 计算 集群 的 统一 关联 和 

资源 共享 。 如 图 4-11 所 示 为 用 虚拟 化 技术 统一 大 数据 平台 ,可 以 使 得 计算 资源 池 能 够 按 需 

求 更 快 、 更 容易 地 提供 新 的 数据 集群 ,允许 工作 负载 的 混合 ,利用 虚拟 机 来 提供 隔离 ,基于 虚 

拟 的 拓扑 来 优化 数据 性 能 ,基于 虚拟 拓扑 使 得 系统 更 可 靠 。 
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> 统一 的 大 数据 分 析 平台 (虚拟 化 ) 
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图 4-11 大 数据 分 析 平 台 ( 虚 拟 化 ) 
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4.5 Hadoop 环境 下 的 数据 整合 


4.5.1 Hadoop 计算 环境 下 的 数据 整合 问题 


随 着 企业 业务 的 增长 ,伴随 企业 各 类 应 用 系统 逐步 启用 ,结果 导致 数据 量 几何 级 数 的 增 
长 ,传统 的 整合 数据 的 方式 正在 受到 挑战 ,与 此 同时 , 云 计算 及 网 上 应 用 在 企业 内 部 产生 各 
类 结构 化 、 非 结构 化 数据 ,这 些 数据 所 蕴含 的 信息 (尤其 是 非 结构 化 数据 ) 是 传统 分 析 工 具 无 
法 捕捉 的 。 

从 根本 来 说 ,企业 信息 化 的 目的 是 为 了 降低 沟通 成 本 、 提 高 工作 效率 、 增 强 科学 决策 能 
力 ,从 手段 上 是 将 分 散 、 无 序 、 无 时 效 的 数据 变 成 有 序 、 可 分 享有 时 效 、 可 追溯 的 数据 ,前 者 
数据 过 渡 到 后 者 数据 ,就 是 无 信息 (或 不 可 信和 信息 ) 变 成 可 信 信 息 的 过 程 。 数 据 蕴含 的 信息 
有 两 类 : 四 交易 信息 , 即 某 一 条 /或 几 条 数据 本 身 所 包含 的 信息 ; 加 统计 信息 , 即 数据 集合 
所 蕴含 的 规律 性 信息 。 如 图 4-12 所 示 , 表 现 了 交易 数据 与 统计 数据 的 关系 和 传统 架构 方 
法 , 即 ETL 模型 。 








| 
| 
| 
ERP 等 应 用 系统 | 











图 4-12 典型 传统 数据 仓库 架构 
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传统 整合 基本 上 是 基于 ETL 模式 , 即 从 企业 内 部 的 信息 系统 中 抽取 (Extract) ,然后 根 
据 预 先 定义 的 方式 转换 (Transform) ,最 后 载 入 到 企业 的 数据 仓库 (Load) ,大 部 分 企业 的 
ETL 程序 定义 在 每 天 晚上 运行 ,这 类 方法 有 以 下 问题 。 

(1) 数据 仓库 的 数据 不 是 实时 的 信息 。 

(2) 如 果 内 部 信息 系统 数据 量 很 大 ,ETL 处 理 时 间 不 可 能 按时 完成 。 

(3) 数据 仓库 的 信息 无 法 快速 反馈 数据 到 基层 处 理 商 务 的 人 员 。 

(4) ERP 本 身 在 多 年 数据 积累 后 ,事务 处 理 与 订单 查询 都 会 变 慢 。 

(5) 无 法 处 理 大 数据 ,ETL 的 整个 数据 处 理 过 程 都 是 建立 在 已 知 /预定 义 的 模型 之 上 
的 ,也 就 是 ETL 无 法 发 掘 到 数据 集 荀 含 的 未 知 规律 。 

(6) 结构 化 大 数据 , 除 上 述 第 (2) 点 外 ,针对 大 数据 的 深度 挖 据 分 析 能 力 ( 非 简单 根据 预 
先 设计 的 模型 做 数据 转换 ) ,传统 的 系统 架构 中 是 无 法 完成 的 。 

(7) 非 结 构 化 、 半 结构 化 大 数据 。 非 架构 化 数据 从 本 质 上 来 讲 , 是 企业 无 法 预先 定义 规 
则 的 数据 类 型 , 据 IDC 的 一 项 调查 报告 中 指出 : 企业 中 80% 的 数据 都 是 非 结构 化 数据 ,这 
些 数据 每 年 都 按 指数 增长 60% 。 传 统 的 方式 无 法 计算 统计 非 结 构 化 数据 。 

Hadoop 计算 环境 下 的 数据 整合 问题 可 以 分 为 两 个 方面 : 一 方面 是 整合 传统 数据 源 ( 例 
如 MySQL Oracle 这 类 的 传统 关系 型 数据 库 ); 另 一 方面 则 是 构建 在 HDFS 之 上 的 数据 源 
间 的 整合 。 

我 们 知道 ,Hadoop 计算 环境 的 底层 存储 HDFS 有 别 于 传统 的 分 布 式 文件 系统 。 因 此 ， 
如 果 要 将 传统 关系 型 数据 库 中 的 数据 抽取 到 HDFS 上 ,需要 导出 数据 文件 并 调用 HDFS 提 
供 的 API 接口 实现 文件 上 传 (而 非 传 统 的 复制 粘贴 文件 )。 为 了 简化 这 个 步骤 ,Apache 
Sqoop 为 我 们 提供 了 一 套 简 单 易 用 且 兼 具 灵 活性 的 数据 整合 工具 。 

那 本 身 就 以 HDFS 为 底层 存储 的 数据 源 的 数据 整合 又 是 如 何 解决 的 呢 ? 考虑 到 这 些 
数据 源 的 数据 文件 均 存 放 在 HDFS 上 ,如 果 要 整合 这 些 数据 ,只 需要 有 一 个 能 存储 检索 数 
据 文件 元 数据 的 服务 就 能 实现 各 个 数据 源 之 间 的 数据 互通 了 。HCatalog 就 是 这 样 的 一 个 
数据 元 数据 (数据 文件 路 径 、 存 储 格 式 、 数 据 的 组 织 格式 、 字 段 类 型 等 ) 管 理工 具 。 

下 面 详细 介绍 这 两 个 数据 整合 工具 。 


4.5.2 数据 库 整 合 工具 Sqoop 


Sqoop 是 Apache 顶级 项 目 , 主 要 用 来 在 Hadoop 和 关系 数据 库 中 传递 数据 。 通 过 
Sqoop, 可 以 方便 地 将 数据 从 关系 数据 库 导入 到 HDFS ,或 者 将 数据 从 HDFS 导出 到 关系 数 
据 库 。 它 充分 利用 了 MapReduce 的 并 行 特点 以 批 处 理 的 方式 加 快 数据 的 传输 ,同时 也 借助 
MapReduce 实现 了 容错 。Sqoop 的 架构 如 图 4-13 所 示 。 

Sqoop 通过 MapReduce 任务 来 传输 数据 ,一 般 只 用 到 Map 过 程 。Sqoop 可 以 将 HDFS 
中 数据 导入 到 Hive、HBase 等 非 关系 型 数据 库 。 对 于 关系 型 数据 库 ,Sqoop 通过 JDBC 和 关 
系 型 数据 库 进行 交互 。 理 论 上 支持 JDBC 的 数据 库 都 可 以 通过 Sqoop 和 HDFS 进行 交互 。 

Sqoop 数据 导入 具有 以 下 的 特点 。 

(1) 支持 文本 文件 (-as-textfile) ,avro(-as-avrodatafile) ,SequenceFiles(-as-sequencefile) 。 

(2) 支持 数据 追加 ,通过 -apend 指定 。 

(3) 支持 table 列 选取 (-column) ,支持 数据 选取 (-where) ,和 -table 一 起 使 用 。 
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图 4-13 ”Sqoop 架构 图 


(4) 支持 数据 选取 ,例如 , 读 人 多 表 join 后 的 数据 SELECT a. * ,b. * FROM a JOIN 
b on (a.id 二 二 b.id) ,不 可 以 和 -table 同时 使 用 。 

(5) 支持 map 数 定制 (-m) 。 

(6) 支持 压缩 (-compress) 。 

(7) 支持 将 关系 数据 库 中 的 数据 导入 到 Hive(-hive-import) .HBase(-hbase-table) 。 

为 了 灵活 地 接 人 各 种 关系 型 数据 库 ,Sqoop 将 对 关系 型 数据 库 的 连接 层 抽 象 为 一 个 个 
Connector, 从 而 实现 了 数据 库 连 接 器 的 插件 化 。 因 此 ,用 户 可 以 通过 实现 自己 的 Connector 
达到 抽取 自己 的 业务 数据 库 数据 的 目的 。 同 时 ,Sqoop 本 身 自 带 了 许多 流行 关系 型 数据 库 
(比如 MySQL ,Oracle 等 ) 的 连接 器 ,以 方便 用 户 的 使 用 。 


4.5.3 Hadoop 平台 内 部 数据 整合 工具 HCatalog 


HCatalog 是 Hadoop 的 元 数据 和 数据 表 的 管理 系统 。 它 基于 Hive 中 的 元 数据 层 , 通 
过 类 似 SQL 的 语言 展现 Hadoop 数据 的 关联 关系 。HCatalog 允许 用 户 通过 Hive、 Pig、 
MapReduce 共享 数据 和 元 数据 。 它 的 另 一 特点 就 是 在 用 户 编写 应 用 程序 时 ,无 须 关 心 数据 
怎么 存储 ,在 哪里 存储 ,还 避免 用 户 因 Schema 和 存储 格式 的 改变 而 受到 影响 。 

HCatalog 应 用 程序 的 数据 模型 以 表 的 形式 组 织 , 表 可 以 放 入 数据 库 中 。 可 以 基于 一 个 
或 多 个 键 对 表 进 行 散 列 分 区 ,这 人 允许 我 们 将 包含 一 个 (或 一 组 ) 给 定 键 值 的 所 有 行 组 织 在 一 
起 。 例 如 ,如 果 使 用 日 期 对 一 个 包含 三 天 数据 的 表 进 行 分 区 ,那么 表 中 将 会 有 三 个 分 区 。 可 
以 从 表 中 动态 地 创建 和 删除 新 分 区 。 分 区 是 多 维度 的 ,而 非 层 次 化 的 。 分 区 包含 多 条 记录 。 
一 旦 创建 了 分 区 ,相应 的 记录 集 就 确定 了 ,并 且 不 能 修改 。 记 录 被 划分 为 多 列 , 每 列 均 有 名 
称 和 数据 类 型 。HCatalog 支持 与 Hive 相同 的 数据 类 型 。 

HCatalog 还 为 “存储 格式 开发 者 ”提供 了 一 个 API, 用 于 定义 如 何 读 取 和 写 入 保存 在 实 
际 物理 文件 或 HBase 表 中 的 数据 (与 Hive 序列 化 / 反 序列 化 一 一 SerDe 相 比 )。HCatalog 
的 默认 数据 格式 是 RCFile。 但 如 果 数 据 以 不 同 格式 存储 ,那么 用 户 可 以 实现 
HCatInputStorageDriver 和 HCatOutputStorageDriver 来 定义 底层 数据 存储 和 应 用 程序 记 
录 格 式 之 间 的 转换 。StorageDriver 的 作用 域 是 一 个 分 区 ,允许 底层 存储 灵活 地 支持 分 区 修 
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改 , 或 者 将 不 同 布局 的 多 个 文件 合并 为 一 个 单独 的 表 。 

以 下 是 HCatalog 的 基本 用 途 。 

1. 实现 工具 间 的 通信 
重度 Hadoop 用 户 绝 不 会 使 用 单独 的 工具 进行 数据 处 理 。 一 般 情况 下 ,用 户 和 团队 开 
始 可 能 只 使 用 一 种 工具 ,如 Hive、Pig、MapReduce 或 者 其 他 工具 。 随 着 他 们 对 Hadoop 使 
用 的 深入 ,他 们 会 发 现 所 使 用 的 工具 对 于 他 们 的 新 任务 来 说 ,不 是 最 优 的 。 开 始 使 用 Hive 
进行 分 析 查 询 的 用 户 ,更 愿意 使 用 Pig 为 ETL 过 程 处 理 或 建立 数据 模型 。 开 始 使 用 Pig 的 
用 户 发 现 , 他 们 更 想 使 用 Hive 进行 分 析 型 查询 。 尽 管 Pig 和 MapReduce 这 样 的 工具 不 需 
要 元 数据 ,但 元 数据 的 出 现 依然 为 它们 带 来 不 少 益处 。 通 过 元 数据 存储 的 共享 ,能 使 用 户 更 
方便 地 在 不 同 工 具 间 共享 数据 。 比 如 在 MapReduce 或 Pig 中 载 人 数据 并 进行 规范 化 ,然后 
通过 Hive 进行 分 析 , 这 样 的 工作 流 已 经 很 普遍 了 。 当 所 有 这 些 工 具 都 共享 一 个 metastore 
时 ,各 个 工具 的 用 户 就 能 够 即时 访问 其 他 工具 创建 的 数据 ,而 无 须 载 和 和 传输 的 步骤 。 

2. 数据 发 现 

对 于 大 型 Hadoop 集群 来 说 ,常见 的 情形 是 应 用 程序 和 数据 具有 多 样 性 。 通 常 , 一 个 应 
用 程序 的 数据 可 以 被 其 他 应 用 程序 使 用 ,但 试图 发 现 这 些 情况 需要 大 量 跨 应 用 程序 的 信息 。 
在 这 种 情况 下 ,可 以 将 HCatalog 用 作对 任何 应 用 程序 可 见 的 注册 表 。 将 数据 在 HCatalog 
中 发 布 就 可 以 让 其 他 应 用 程序 发 现 它们 。 

3. 系统 集成 

作为 一 个 处 理 和 存储 数据 环境 来 说 ,Hadoop 为 企业 应 用 提供 了 太 多 的 机 会 。 但 为 了 
充分 使 用 它 ,必须 要 增强 现 有 工具 并 配合 使 用 。Hadoop 应 当 作 为 分 析 平 台 的 输入 ,或 者 与 
业务 数据 存储 和 Web 应 用 集成 。 组 织 应 该 享受 Hadoop 带 来 的 价值 ,无 须 学 习 工 具 使 用 等 
新 的 内 容 。 有 了 Templeton 提供 的 REST 服务 ,就 可 以 通过 常见 的 API 和 类 SQL 的 语言 
将 平台 开放 给 企业 。 通 过 这 种 方式 , 它 开放 了 整个 平台 。 

HCatalog 在 Hadoop 集群 环境 中 起 着 至 关 重 要 的 作用 .作为 企业 应 用 Hadoop 的 准备 ， 
HCatalog 代表 着 下 一 个 合理 的 延伸 。 


4.6 大 数据 数据 交换 


工业 和 信息 化 部 通信 发 展 司 副 司 长 陈 家 春 曾 表 示 , 中 国 的 数据 总 量 增长 速度 迅猛 ， 
预计 到 2020 年 将 占 全 球 的 21% ,我 国正 向 着 数据 资源 大 国 的 方向 前 进 。 不 过 ,此 前 由 于 
政策 法 规 的 不 完善 以 及 数据 标准 不 统一 等 因素 ,造成 我 国 虽 然 数据 资源 丰富 , 却 无 法 实 
现 这 些 资 源 的 有 效 共 享 和 应 用 。 大 数据 共享 交换 平台 的 建设 ,将 有 望 破解 这 些 大 数据 资 
源 瓶 颈 。 

数据 交换 是 指 为 了 满足 不 同 信息 系统 之 间 数 据 资源 的 共享 需要 ,根据 一 定 的 原则 ,采取 
相应 的 技术 ,实现 不 同 信息 系统 之 间 数 据 资 源 共享 交换 的 过 程 。 

提 到 数据 交换 ,就 值得 介绍 一 个 国际 级 的 实践 EDI(Electronic Data Interchange, 电 子 
数据 交换 ) , 它 是 一 种 利用 计算 机 进行 商务 处 理 的 方式 。 在 基于 互联 网 的 电子 商务 广泛 应 用 
之 前 , 曾 是 一 种 主要 的 电子 商务 模式 。 

EDI 是 将 贸易 .运输 、 保 险 、 银 行 和 海关 等 行业 的 信息 ,用 一 种 国际 公认 的 标准 格式 , 形 
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成 结构 化 的 事务 处 理 的 报 文 数据 格式 ,通过 计算 机 通信 和 网络 ,使 各 有 关 部 门 、 公 司 与 企业 之 
间 进 行 数据 交换 与 处 理 ,并 完成 以 贸易 为 中 心 的 全 部 业务 过 程 。EDI 包括 买卖 双方 数据 交 
换 、 企 业内 部 数据 交换 等 。 

实际 上 ,EDI 的 发 展 已 经 至 少 经 历 了 二 十 多 年 ,其 发 展 和 演变 的 过 程 已 经 充分 显示 了 商 
业 领 域 对 其 重视 的 程度 。 从 人 们 将 EDI 称 为 “无 纸 贸 易 ”(Paperless Trade) ,将 EFT( 电 子 
转账 ) 称 为 “无 纸 付 款 ”(Paperless Payment) ,已 经 足以 看 出 EDI 对 商业 运作 的 影响 。EDI 
最 初 是 来 自 于 EBDI(Electronic Business Document Exchange, 电 子 商业 单据 交换 )。 其 最 
基本 的 商业 意义 就 在 于 由 计算 机 自动 生成 商业 单据 ,例如 订单 发票 等 ,然后 直接 通过 电信 
网 络 传输 到 商业 伙伴 的 计算 机 里 。 这 里 的 商业 伙伴 指 的 是 广义 上 的 商业 伙伴 , 它 包括 任何 
的 公司 ,政府 机 构 、 其 他 商业 或 非 商 业 的 机 构 , 只 要 这 些 机 构 与 你 的 企业 保持 经 常 性 的 带 有 
结构 性 的 数据 的 交换 。EDI 使 用 者 从 此 项 应 用 所 得 到 的 好 处 包括 : 节省 时 间 、 节 省 费用 , 减 
少 错误 ; 减少 库存 改善 现金 流动 ,以 及 获取 多 方面 的 营销 优势 等 。 

由 于 实施 EDI 的 最 基本 目的 就 是 通过 第 三 方 服 务 方 的 增值 服务 ,用 电子 数据 交换 代替 
商业 纸 单 证 的 交换 ,而 纸 面 单 证 的 电子 交换 是 建立 在 标准 化 信息 基础 上 的 ,因此 EDI 的 历 
史实 际 上 就 是 商业 数据 的 标准 化 和 增值 网 络 服务 商 的 发 展 过 程 。 当 然 , 计 算 机 之 间 进 行 电 
子 信息 传输 有 许多 标准 ,特别 是 在 不 同系 统 的 计算 机 之 间 的 信息 交换 更 是 需要 有 很 强 的 标准 。 
如 果 排 除 操作 系统 ,程序 语言 和 其 他 一 些 硬件 标准 ,EDI 至 少 涉及 如 下 两 方面 的 标准 问题 。 

(1) 数据 标准 (Data) , 指 的 是 数据 的 格式 和 内 容 , 这 也 是 EDI 的 具体 标准 。 

(2) 协议 标准 (Protocol) , 指 的 是 一 台 计算 机 与 另 一 台 计 算 机 之 间 对 话 所 遵循 的 规则 。 

在 EDI 的 发 展 历史 中 ,真正 推进 EDI 发 展 的 是 那些 独立 的 EDI 网 络 增值 服务 商 。 特 别 
是 20 世纪 80 年 代 以 来 ,西方 各 国电 信和 政策 逐步 放宽 ,私营 网 络 增 值 服务 商 的 出 现 , 使 EDI 
走向 了 商业 化 发 展 的 前 沿 。 实 际 上 ,EDI 的 应 用 主要 是 来 自 于 两 个 方面 : 一 个 是 大 的 企业 
想 与 自己 的 供应 商 和 客户 建立 电子 数据 交换 和 联系 ; 另 一 个 就 是 有 些 行业 已 经 形成 了 非常 
成 熟 的 供应 链 网 络 ,通过 实施 EDI 改善 整个 行业 的 整体 社会 效率 。 因 此 ,EDI 系统 较 早 应 
用 在 北美 欧洲 \ 日 本 ,以 及 澳大利亚 的 汽车 制造 行业 、 运 输 行业 ,以 及 日 用 生活 用 品 的 批发 
行业 等 。 这 些 行业 从 EDI 的 应 用 中 得 到 了 非常 好 的 效益 。 

EDI 是 目前 为 止 最 为 成 熟 和 使 用 范围 最 广泛 的 电子 商务 应 用 系统 。 其 根本 特征 在 于 标 
准 的 国际 化 ,标准 化 是 实现 EDI 的 关键 环节 。 早 期 的 EDI 标准 ,只 是 由 贸易 双方 自行 约定 ， 
随 着 使 用 范围 的 扩大 ,出现 了 行业 标准 和 国家 标准 ,最 后 形成 了 统一 的 国际 标准 。 国 际 标准 
的 出 现 , 大 大 地 促进 了 EDI 的 发 展 。 随 着 EDI 各 项 国际 标准 的 推出 ,以 及 开放 式 EDI 概念 
模型 的 趋 于 成 熟 ,EDI 的 应 用 领域 不 仅 限于 国际 贸易 领域 ,而 且 在 行政 管理 .医疗 .建筑 、 环 
境 保护 等 各 个 领域 得 到 了 广泛 应 用 。 在 大 数据 时 代 , 数 据 交换 的 前 提 和 目的 与 EDI 都 有 较 
大 的 区 别 , 然 而 EDI 的 实践 和 标准 对 大 数据 时 代 的 数据 交换 仍 具备 很 高 的 参考 价值 。 


4.6.1 数据 集成 技术 


近 几 十 年 来 ,科学 技术 的 迅猛 发 展 和 信息 化 的 推进 ,使 得 人 类 社会 所 积累 的 数据 量 已 经 
超过 了 过 去 5000 年 的 总 和 ,数据 的 采集 、 存 储 、 处 理 和 传播 的 数量 也 与 日 俱 增 。 企业 实现 数 
据 共 享 ,可 以 使 更 多 的 人 更 充分 地 使 用 已 有 数据 资源 ,减少 资料 收集 、 数 据 采 集 等 重复 劳动 
和 相应 费用 。 但 是 ,在 实施 数据 共享 的 过 程 当中 ,由 于 不 同 用 户 提供 的 数据 可 能 来 自 不 同 的 
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途径 ,其 数据 内 容 、 数 据 格式 和 数据 质量 千差万别 ,有 时 甚至 会 遇 到 数据 格式 不 能 转换 或 数 
据 转换 格式 后 丢失 信息 等 棘手 问题 ,严重 阻碍 了 数据 在 各 部 门 和 各 软件 系统 中 的 流动 与 共 
享 。 因 此 ,如 何 对 数据 进行 有 效 的 集成 管理 已 成 为 增强 企业 商业 竞争 力 的 必然 选择 。 

于 现代 企业 的 飞速 发 展 和 企业 逐渐 从 一 个 孤立 节点 发 展 成 为 不 断 与 网 络 交换 信息 和 
进行 商务 事务 的 实体 ,企业 数据 交换 也 从 企业 内 部 走向 了 企业 之 间 ; 同时 ,数据 的 不 确定 性 
和 频繁 变动 ,以 及 这 些 集成 系统 在 实现 技术 和 物理 数据 上 的 紧 耦 合 关系 ,导致 一 旦 应 用 发 生 
变化 或 物理 数据 变动 ,整个 体系 将 不 得 不 随 之 修改 。 因 此 ,我 们 进行 数据 集成 将 面临 着 如 何 
适应 现代 社会 发 展 的 复杂 需求 有效 扩 展 应 用 领域 ,分离 实 现 技术 和 应 用 需求 、 充 分 描述 各 
种 数据 源 格式 以 及 发 布 和 进行 数据 交换 等 问题 。 

在 企业 中 ,由 于 开发 时 间或 开发 部 门 的 不 同 ,往往 有 多 个 异 构 的 .运行 在 不 同 的 软 硬 件 
平台 上 的 信息 系统 同时 运行 ,这 些 系 统 的 数据 源 彼此 独立 ` 相 互 封闭 ,使 得 数据 难以 在 系统 
之 间 交 流 、 共 享 和 融合 ,从 而 形成 了 “信息 孤岛 "。 随 着 信息 化 应 用 的 不 断 深入 ,企业 内 部 , 企 
业 与 外 部 信息 交互 的 需求 日 益 强 烈 ,急切 需要 对 已 有 的 信息 进行 整合 ,连通 “信息 孤岛 ", 共 
享 信息 。 数 据 集成 通过 应 用 间 的 数据 交换 从 而 达到 集成 ,主要 解决 数据 的 分 布 性 和 异 构 性 
的 问题 。 数 据 集成 是 把 不 同 来 源 、 格 式 、 特 点 ,性 质 的 数据 在 多 辑 上 或 物理 上 有 机 地 集中 ,从 
而 为 企业 提供 全 面 的 数据 共享 。 在 企业 数据 集成 领域 ,已 经 有 了 很 多 成 熟 的 框架 可 以 利用 。 
通常 采用 联邦 式 、 基 于 中 间 件 模型 和 数据 仓库 等 方法 来 构造 集成 的 系统 ,这 些 技术 在 不 同 的 
着 重点 和 应 用 上 解决 数据 共享 和 为 企业 提供 决策 支持 。 下 面 对 这 几 种 数据 集成 模型 做 一 个 
基本 的 介绍 。 

联邦 数据 库 系 统 : 是 由 半 自 治 数据 库 系统 构成 ,相互 之 间 分 享 数据 ,联盟 各 数据 源 之 间 
相互 提供 访问 接口 ,同时 联盟 数据 库 系统 可 以 是 集中 数据 库 系统 或 分 布 式 数据 库 系统 及 其 
他 联邦 式 系统 。 在 这 种 模式 下 又 分 为 紧 耦 合 和 松 耦 合 两 种 情况 , 紧 耦 合 提供 统一 的 访问 模 
式 , 一 般 是 静态 的 ,在 增加 数据 源 上 比较 困难 ; 而 松 耦 合 则 不 提供 统一 的 接口 ,但 可 以 通过 
统一 的 语言 访问 数据 源 ,其 中 核心 的 是 必须 解决 所 有 数据 源 语 义 上 的 问题 。 

中 间 件 模式 : 通过 统一 的 全 局 数据 模型 来 访问 异 构 的 数据 库 、 遗 留 系 统 、Web 资源 等 。 
中 间 件 位 于 异 构 数 据 源 系统 (数据 层 ) 和 应 用 程序 (应 用 层 ) 之 间 , 向 下 协调 各 数据 源 系 统 , 向 
上 为 访问 集成 数据 的 应 用 提供 统一 数据 模式 和 数据 访问 的 通用 接口 。 各 数据 源 的 应 用 仍然 
完成 它们 的 任务 ,中 间 件 系统 则 主要 集中 为 异 构 数据 源 提供 一 个 高 层次 检索 服务 。 

中 间 件 模式 是 比较 流行 的 数据 集成 方法 , 它 通 过 在 中 间 层 提供 一 个 统一 的 数据 逻辑 视 
图 来 隐藏 底层 的 数据 细节 ,使 得 用 户 可 以 把 集成 数据 源 看 为 一 个 统一 的 整体 。 这 种 模型 下 
的 关键 问题 是 如 何 构造 这 个 逻辑 视图 并 使 得 不 同 数据 源 之 间 能 映射 到 这 个 中 间 层 。 

数据 仓库 模式 : 是 在 企业 管理 和 决策 中 面向 主题 的 、 集 成 的 、 与 时间 相关 的 和 不 可 修改 
的 数据 集合 。 其 中 ,数据 被 归 类 为 广义 的 、 功 能 上 独立 的 、 没 有 重 释 的 主题 。 这 几 种 方法 在 
一 定 程度 上 解决 了 应 用 之 间 的 数据 共享 和 互通 的 问题 ,但 也 存在 以 下 的 异同 : 联邦 数据 库 
系统 主要 面向 多 个 数据 库 系统 的 集成 ,其 中 数据 源 有 可 能 要 映射 到 每 一 个 数据 模式 , 当 集成 
的 系统 很 大 时 ,对 实际 开发 将 带 来 巨大 的 困难 。 数 据 仓库 技术 则 在 另外 一 个 层面 上 表达 数 
据 之 间 的 共享 , 它 主 要 是 为 了 针对 企业 某 个 应 用 领域 提出 的 一 种 数据 集成 方法 ,也 就 是 在 上 
面 所 提 到 的 面向 主题 并 为 企业 提供 数据 挖掘 和 决策 支持 的 系统 。 

数据 集成 技术 和 方法 是 数据 交换 的 基础 ,在 大 数据 时 代 , 数 据 交换 虽然 面临 不 同 的 需 
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求 .规模 、 体 量 和 应 用 场景 ,但 数据 集成 的 基础 框架 同样 适用 。 


4.6.2 数据 交换 体系 应 用 框架 


我 们 总 结 商业 公司 之 间 的 大 数据 交互 至 少 有 下 列 几 种 。 

方式 一 : 两 家 或 两 家 以 上 的 商业 公司 ,他 们 从 事 的 服务 行业 不 同 ,拥有 客户 的 不 同方 面 
的 信息 ,他 们 的 服务 行业 有 的 具有 较 强 的 相关 人 性 ,整合 ,交互 信息 对 其 中 一 方 或 参与 各 方 都 
能 增加 新 的 价值 。 

方式 二 : 商业 公司 对 社交 网 站 的 客户 个 人 信息 数据 整合 ,期 望 带 来 新 的 业务 增长 点 或 
实行 更 好 的 客户 服务 。 

方式 三 : 商业 公司 对 政府 部 门 的 公开 信息 ,进行 大 数据 级 别 的 整合 和 交互 ,产生 新 的 商 
业 模式 、 新 业务 ,或 改进 客户 服务 。 

方式 四 : 未 来 ,还 会 有 新 的 外 部 大 数据 的 整合 方式 会 产生 价值 ,比如 某 商 业 公司 进行 大 
量 的 对 外 部 弱 相 关 的 数据 的 整合 , 当 总 量 达到 一 定 规模 之 后 ,仍然 会 产生 对 商业 公司 自身 业 
务 具有 巨大 价值 的 信息 。 

商业 公司 间 的 大 数据 种 类 众多 ,几乎 大 多 数 的 情况 下 ,两 个 公司 之 间 数 据 的 整合 只 对 其 
中 一 方 的 业务 有 帮助 ,或 者 对 双方 的 业务 帮助 价值 不 对 等 ,比如 社交 媒体 的 信息 对 于 大 众 商 
品 销售 公司 等 。 因 此 ,购买 大 数据 的 可 能 性 远大 于 简单 数据 交换 或 数据 互通 。 在 这 种 情形 
下 ,就 需要 采用 4.7 节 所 介绍 的 大 数据 交易 手段 去 处 理 了 。 

数据 交换 的 体系 框架 包含 数据 源 ( 数 据 交 换 方 ) ,数据 交换 平台 ,以 及 可 用 于 实现 不 同类 
型 数据 集成 方案 的 组 件 和 工具 。 我 们 用 如 图 4-14 所 示 的 数据 交换 和 共享 平台 架构 来 说 明 
数据 交换 的 体系 架构 。 
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图 4-14 数据 交换 共享 平台 架构 
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数据 源 是 交换 体系 架构 中 的 数据 提供 方 , 在 上 面 的 数据 交换 场景 中 ,很 多 情形 下 数据 提 
供 方 同时 也 是 数据 需求 方 , 双 方 基于 相互 的 数据 需求 在 数据 交换 平台 上 进行 。 针 对 不 同行 
业 , 还 需要 形成 数据 标准 、 元 数据 管理 和 数据 字典 等 ,才能 有 效 地 与 数据 交换 平台 进行 对 接 。 

数据 接口 是 数据 源 与 数据 交换 平台 的 接口 ,基于 预先 定义 好 的 数据 标准 ,以 及 数据 访问 
格式 .数据 访问 协议 等 ,可 以 实现 数据 源 与 数据 交换 平台 的 数据 对 接 和 集成 。 具 体 的 访问 协 
议 可 以 基于 Web Services 的 模式 ,也 可 以 基于 其 他 标准 的 或 定制 化 的 访问 协议 。 数 据 对 接 
过 程 可 以 记录 在 日 志 中 , 供 监控 审计、 调试 使 用 。 

数据 交换 平台 除了 提供 与 各 数据 源 的 数据 接口 之 外 ,还 需要 提供 数据 交换 引擎 ,以 及 数 
据 交换 管理 组 件 。 数 据 交换 引 警 负责 不 同 的 数据 模块 之 间 的 交换 策略 及 规则 ; 交换 管理 则 
负责 相应 的 数据 注册 .认证 .授权 ,监控 等 过 程 。 

基于 数据 交换 平台 可 以 搭建 上 层 的 数据 共享 平台 ,比如 政务 共享 平台 、 行 业 共享 平台 
等 ,这 样 把 下 层 的 数据 交换 层 形成 的 整合 及 集成 数据 提供 给 上 端的 数据 处 理 及 数据 应 用 层 
来 访问 和 使 用 。 


4.6.3 数据 交换 关键 技术 


数据 交换 技术 中 最 核心 的 技术 是 数据 交换 接口 部 分 ,一 般 的 数据 接口 都 是 基于 Web 
Service( 网 络 服务 ) 的 实现 。 在 这 个 领域 ,有 成 熟 的 相对 比较 重量 级 的 SOAP Web Service， 
也 有 逐步 成 为 主流 的 轻 量 级 的 RESTful 服务 。 

1. SOAP Web Service 和 RESTful Web Service 


对 于 SOAP Web Service 和 RESTful Web Service 的 选择 问题 ,首先 需要 理解 的 就 是 
SOAP 偏向 于 面向 活动 ,有 严格 的 规范 和 标准 ,包括 安全 、 事 务 等 各 个 方面 的 内 容 , 同 时 
SOAP 强调 操作 方法 和 操作 对 象 的 分 离 , 有 WSDL 文件 规范 和 XSD 文件 分 别 对 其 定义 。 
而 REST 强调 面向 资源 ,只 要 我 们 要 操作 的 对 象 可 以 抽象 为 资源 即 可 以 使 用 REST 架构 
风格 。 

REST 是 一 种 架构 风格 ,其 核心 是 面向 资源 ,REST 专门 针对 网 络 应 用 设计 和 开发 方 
式 ,以 降低 开发 的 复杂 性 ,提高 系统 的 可 伸缩 性 。REST 提出 的 设计 概念 和 准则 如 下 。 

(1) 网 络 上 的 所 有 事物 都 可 以 被 抽象 为 资源 。 

(2) 每 一 个 资源 都 有 唯一 的 资源 标识 ,对 资源 的 操作 不 会 改变 这 些 标识 。 

(3) 所 有 的 操作 都 是 无 状态 的 。 

REST 简化 开发 ,其 架构 遵循 CRUD 原则 ,该 原则 告诉 我 们 对 于 资源 (包括 网 络 资源 ) 
只 需要 4 种 行为 : 创建 ,获取 ,更 新 和 删除 ,就 可 以 完成 相关 的 操作 和 处 理 。 可 以 通过 统一 
资源 标识 符 (Universal Resource Identifier, URI) 来 识别 和 定位 资源 ,并 且 针 对 这 些 资源 而 
执行 的 操作 是 通过 HTTP 规范 定义 的 。 其 核心 操作 只 有 GET、PUT、POST、DELETE.。 

由 于 REST 强制 所 有 的 操作 都 必须 是 stateless( 无 状态 ) 的 ,这 就 没有 上 下 文 的 约束 ,如 
果 做 分 布 式 ,集群 都 不 需要 考虑 上 下 文 和 会 话 保持 的 问题 , 极 大 地 提高 了 系统 的 可 伸缩 性 。 

是 否 使 用 REST 就 需要 考虑 资源 本 身 的 抽象 和 识别 是 否 困难 ,如 果 本 身 就 是 简单 的 类 
似 增 删改 查 的 业务 操作 ,那么 抽象 资源 就 比较 容易 .而 对 于 复杂 的 业务 活动 抽象 资源 并 不 是 
一 个 简单 的 事情 。 比 如 校 验 用 户 等 级 、 转 账 、 事 务 处 理 等 ,这 些 往往 并 不 容易 简单 地 抽象 为 
资源 。 
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其 次 ,如 果 有 严格 的 规范 和 标准 定义 要 求 ,而 且 前 期 规范 标准 需要 指导 多 个 业务 系统 集 
成 和 开发 的 时 候 ,SOAP 风格 由 于 有 清晰 的 规范 标准 定义 是 明显 有 优势 的 。 我 们 可 以 在 开 
始 和 实现 之 前 就 严格 定义 相关 的 接口 方法 和 接口 传输 数据 。 

简单 数据 操作 ,无 事务 处 理 , 开 发 和 调用 简单 这 些 是 使 用 REST 架构 风格 的 优势 。 而 
对 于 较为 复杂 的 面向 活动 的 服务 ,如 果 还 是 使 用 REST, 很 多 时 候 都 仍然 是 传统 的 面向 活动 
的 思想 通过 转换 工具 再 转换 得 到 REST 服务 ,这 种 使 用 方式 是 没有 意义 的 。 

SOAP 对 于 消息 体 和 消息 头 都 有 定义 ,同时 消息 头 的 可 扩展 性 为 各 种 互联 网 的 标准 提 
供 了 扩展 的 基础 ,WS-* 系列 就 是 较为 成 功 的 规范 。 但 是 也 由 于 SOAP 由 于 各 种 需求 不 断 
扩充 其 本 身 协议 的 内 容 , 导 致 在 SOAP 处 理 方面 的 性 能 有 所 下 降 。 同 时 在 易 用 性 方面 以 及 
学 习 成 本 上 也 有 所 增加 。 

REST 被 人 们 重视 ,其 实 很 大 一 方面 也 是 因为 其 高 效 以 及 简洁 易 用 的 特性 。 这 种 高 效 
一 方面 源 于 其 面向 资源 接口 设计 以 及 操作 抽象 简化 了 开发 者 的 不 良 设计 ,同时 也 最 大 限度 
地 利用 了 HTTP 最 初 的 应 用 协议 设计 理念 。 同 时 REST 还 有 一 个 很 吸引 开发 者 的 地 方 就 
是 能 够 很 好 地 融合 当前 Web 2. 0 的 很 多 前 端 技术 来 提高 开发 效率 。 例 如 ,很 多 大 型 网 站 开 
放 的 REST 风格 的 API 都 会 有 多 种 返回 形式 ,除了 传统 的 XML 作为 数据 承载 ,还 有 
JSON RSS、.ATOM 等 形式 ,这 对 很 多 网 站 前 端 开发 人 员 来 说 就 能 够 很 好 地 融合 各 种 资源 
信息 。 

REST 对 于 资源 型 服务 接口 来 说 很 合适 ,同时 特别 适合 对 于 效率 要 求 很 高 ,但 是 对 于 安 
全 要 求 不 高 的 场景 。 而 SOAP 的 成 熟 性 可 以 给 需要 提供 给 多 开发 语言 的 ,对 于 安全 性 要 求 
较 高 的 接口 设计 带 来 便利 。 

2. 数据 交换 格式 XML 和 JSON 

XML(Extensible Markup Language, 扩 展 标记 语言 ) 是 用 于 标记 电子 文件 使 其 具有 结 
构 性 的 标记 语言 ,可 以 用 来 标记 数据 .定义 数据 类 型 ,是 一 种 允许 用 户 对 自己 的 标记 语言 进 
行 定 义 的 源 语言 。 XML 使 用 DTD(Document Type Definition ,文档 类 型 定义 ) 来 组 织 数据 ; 
格式 统一 , 跨 平台 和 语言 ,早已 成 为 业界 公认 的 标准 。 

XML 是 标准 通用 标记 语言 (SGML) 的 子 集 , 非 常 适合 Web 传输 。XML 提供 统一 的 方 
法 来 描述 和 交换 独立 于 应 用 程序 或 供应 商 的 结构 化 数据 。 

JSON(JavaScript Object Notation) 是 一 种 轻 量 级 的 数据 交换 格式 .具有 和 良好 的 可 读 和 
便于 快速 编写 的 特性 ,可 在 不 同 平台 之 间 进 行 数据 交换 。JSON 采用 兼容 性 很 高 的 、 完 全 独 
立 于 语言 文本 格式 ,同时 也 具备 类 似 于 C 语言 的 习惯 (包括 C,C++,C# ,Java,JavaScript， 
Perl,Python 等 ) 体 系 的 行为 。 这 些 特性 使 JSON 成 为 理想 的 数据 交换 语言 。 

XML 的 优点 在 于 格式 统一 ,符合 标准 ; 容易 与 其 他 系统 进行 远程 交互 ,数据 共享 比较 
方便 。 其 缺点 是 XML 文件 庞大 ,文件 格式 复杂 ,传输 占 带 宽 ; 服务 器 端 和 客户 端 都 需要 花 
费 大 量 代 码 来 解析 XML, 导致 服务 器 端 和 客户 端 代码 变 得 异常 复杂 且 不 易 维护 ; 客户 端 不 
同 浏览 器 之 间 解 析 XML 的 方式 不 一 致 ,需要 重复 编写 很 多 代码 ; 服务 器 端 和 客户 端 解析 
XML 花费 较 多 的 资源 和 时 间 。 

JSON 的 优点 是 数据 格式 比较 简单 ,易于 读 写 , 格 式 都 是 压缩 的 ,占用 带宽 小 ; 易于 解 
析 , 客 户 端 JavaScript 可 以 简单 地 进行 JSON 数据 的 读 取 ; 支持 多 种 语言 ,包括 C、C#、 
Java JavaScript\Perl、. PHP、Python 、Ruby 等 服务 器 端 语言 ,便于 服务 器 端的 解析 ; 因为 
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JSON 格式 能 直接 为 服务 器 端 代 码 使 用 ,大 大 简化 了 服务 器 端 和 客户 端的 代码 开发 量 , 且 完 
成 任务 不 变 , 并 且 易 于 维护 ,因而 现在 JSON 轻 量 级 数据 交换 格式 逐渐 成 为 网 络 数据 交换 普 
遍 采用 的 标准 。 

3. ESB 企业 服务 总 线 

在 一 些 大 型 集团 公司 及 企业 之 间 , 数 据 交换 也 常常 基于 企业 服务 总 线 (Enterprise 
Service Bus,ESB) 的 架构 。ESB 是 从 面向 服务 体系 架构 (Service-Oriented Architecture， 
SOA) 发 展 而 来 ,是 传统 中 间 件 技术 与 XML、Web 服务 等 技术 结合 的 产物 。 

ESB 提供 了 网 络 中 最 基本 的 连接 中 枢 , 是 构筑 企业 交互 系统 的 必要 元 素 。ESB 采用 了 
“总 线 ? 这 样 一 种 模式 来 管理 和 简化 应 用 之 间 的 复杂 集成 拓扑 结构 ,以 广 为 接 受 的 开放 标准 
为 基础 来 支持 应 用 之 间 在 消息 .事件 和 服务 级 别 上 动态 的 互 连 互通 ,是 一 种 在 松散 耦合 的 服 
务 和 应 用 之 间 标 准 的 集成 方式 。 它 可 以 作用 于 : 

(1) 面向 服务 的 架构 一 一 分 布 式 的 应 用 由 可 重用 的 服务 组 成 ; 

(2) 面向 消息 的 架构 一 一 应 用 之 间 通 过 ESB 发 送 和 接收 消息 ; 

(3) 事件 驱动 的 架构 一 一 应 用 之 间 异 步 地 产生 和 接收 消息 。 

ESB 的 出 现 改 变 了 传统 的 软件 架构 ,可 以 提供 比 传 统 中 间 件 产品 更 为 低廉 的 解决 方 
案 , 同 时 它 还 可 以 消除 不 同 应 用 之 间 的 技术 差异 ,让 不 同 的 应 用 服务 器 协调 运作 ,实现 了 不 
同 服务 之 间 的 通信 与 整合 。 从 功能 上 看 ,ESB 提供 了 事件 驱动 和 文档 导向 的 处 理 模 式 , 以 
及 分 布 式 的 运行 管理 机 制 , 它 支 持 基 于 内 容 的 路 由 和 过 滤 , 具 备 了 复杂 数据 的 传输 能 力 , 并 
可 以 提供 一 系列 的 标准 接口 。ESB 用 于 实现 企业 应 用 不 同 消息 和 信息 的 准确 、 高 效 和 安全 
传递 。 让 不 同 的 应 用 服务 协调 运作 ,实现 不 同 服务 之 间 的 通信 与 整合 。ESB 在 不 同 领域 具 
有 非常 广泛 的 用 途 。 

(1) 电信 领域: ESB 能 够 在 全 方位 支持 电信 行业 OSS 的 应 用 整合 概念 ,是 理想 的 电信 
级 应 用 软件 承载 平台 。 

(2) 电力 领域 : ESB 能 够 在 全 方位 支持 电力 行业 EMS 的 数据 整合 概念 ,是 理想 的 
SCADA 系统 数据 交换 平台 。 

(3) 金融 领域 : ESB 能 够 在 全 方位 支持 银 企 间 业 务 处 理 平台 的 流程 整合 概念 ,是 理想 
的 B2B 交易 支撑 平台 。 

(4) 电子 政务 : ESB 能 够 在 全 方位 支持 电子 政务 应 用 软件 业务 基础 平台 、 信 息 共 享 交 
换 平台 、 决 策 分 析 支 撑 平 台 和 政务 门户 的 平台 化 实现 。 


4.7 大 数据 交易 


前 面 一 再 强调 ,大 数据 的 交叉 融合 、 整 合 交 换 是 充分 发 挥 大 数据 价值 的 基础 。 据 研究 机 
构 预 测 , 到 2019 年 ,企业 中 75% 的 分 析 解 决 方案 中 将 需要 包括 10 个 或 更 多 的 数据 源 。 其 
中 很 多 的 数据 来 自 合 作 伙 伴 或 第 三 方 提供 商 。 要 整合 大 量 的 数据 来 源 方 和 服务 方 ,单纯 基 
于 数据 交换 的 机 制 将 很 难 满足 复杂 的 业务 和 商务 需求 。 就 像 商 品 市 场 由 最 初 的 以 物 换 物 发 
展 到 基于 货币 的 交易 市 场 的 演进 一 样 ,大 数据 交易 也 应 运 而 生 了 。 

大 数据 交易 从 其 市 场 角色 和 功能 来 说 ,包含 但 不 限于 以 下 几 个 方面 。 

(1) 大 数据 交易 可 以 引导 对 大 数据 商品 的 规范 ,对 大 数据 定量 、 定 价 方面 进行 引导 ; 


的 Wy 

(2) 大 数据 交易 应 该 建立 认证 系统 ,确保 大 数据 商品 的 真实 性 和 价值 ; 

(3) 大 数据 交易 可 以 深化 国家 有 关 法 律 对 大 数据 商品 的 规范 ,特别 是 确保 大 数据 交易 
的 买卖 双方 遵守 国家 有 关 隐 私 、 国 家 安全 、 商 业 机 密 等 方面 的 法 律 ,保护 消费 者 的 信息 安全 
和 其 他 权益 ; 

(4) 大 数据 交易 应 该 为 市 场 参与 者 提供 服务 和 手段 ,帮助 市 场 参与 者 找到 适合 自己 的 
交易 方 ; 

(5) 大 数据 交易 应 该 且 可 以 对 大 数据 的 转移 和 使 用 提供 法 律 上 的 保障 ; 

(6) 大 数据 交易 应 该 且 可 以 对 大 数据 的 转移 和 使 用 提供 数据 安全 上 的 技术 保障 ; 

(7) 大 数据 交易 应 该 确保 资金 的 转移 和 安全 ; 

(8) 大 数据 交易 还 可 以 开放 大 数据 衍生 产品 ,比如 大 数据 期 货 , 即 对 未 来 某 时 间 段 将 要 
产生 的 大 数据 进行 交易 。 

提 到 数据 交易 ,基于 美国 西雅图 的 BlueKai 公司 可 谓 这 个 行业 的 先行 者 。BlueKai 成 立 
于 2007 年 年 末 , 是 美国 著名 在 线 数据 拍卖 平台 ,通过 互联 网 汇集 各 种 数据 ,并 出 售 给 营销 人 
员 广告 网 络 或 内 容 发 布 商 , 以 便 增强 广告 质量 。 数 据 购买 者 中 不 乏 全 美 排名 前 十 的 广告 网 
络 。BlueKai 所 做 的 主要 工作 是 从 一 些 拥有 部 分 有 价值 客户 流量 的 个 人 或 者 中 小 网 站 那 边 
购买 相关 信息 ,然后 将 这 些 信 息 进行 分 析 归 纳 , 从 而 总 结 分 类 出 更 具 市 场 价值 的 流量 信息 ， 
并 最 终 进 行 网 络 拍卖 。2014 年 ,BlueKai 被 Oracle 以 4 亿美 金 收购 。 

大 数据 交易 在 中 国 的 发 展 势头 迅猛 ,2011 年 5 月 国内 首 家 专注 于 互联 网 综合 数据 交易 
和 服务 的 公司 “数据 堂 ?成 立 。2014 年 2 月 ,国内 首 个 面向 数据 交易 的 产业 组 织 一 一 中 关 村 
大 数据 交易 产业 联盟 成 立 , 同 日 ,中关村 数 海 大 数据 交易 平台 启动 ,定位 大 数据 的 交易 服务 
平台 。2014 年 12 月 ,北京 大 数据 交易 服务 平台 上 线 。2015 年 4 月 ,贵阳 大 数据 交易 所 正式 
挂牌 运营 并 完成 首 批 大 数据 交易 。 其 后 ,在 2015 年 7 月 和 10 月 ,东湖 大 数据 交易 所 在 武 
汉 、 长 江 大 数据 交易 所 在 光 谷 资本 大 厦 、 徐 州 大 数据 交易 所 等 相继 挂牌 成 立 。2015 年 12 
月 ,河北 京 津 费 数据 交易 中 心 成 立 。 之 后 全 国 在 北京 上海 广州、 深圳、 陕西 浙江 等 地 陆续 
成 立 了 一 批 数 据 交 易 所 和 交易 中 心 , 其 他 省 市 也 都 在 规划 筹建 。 

大 数据 交易 所 和 交易 中 心 的 成 立 还 只 是 大 数据 交易 产业 的 开端 ,这 个 行业 的 黄金 时 期 
还 有 待 时 日 ,预计 还 需要 至 少 两 年 的 时 间 , 这 其 中 的 原因 是 大 数据 交易 还 存在 很 多 未 解决 的 
问题 ,还 有 很 多 基础 建设 需要 完成 ,同时 整个 产业 链 的 发 展 以 及 相关 政策 法 规 还 需要 成 熟 和 
完善 。 

大 数据 交易 简单 来 说 ,首先 是 数据 产品 和 数据 接口 的 提供 ,然后 需要 进行 数据 资产 评 
估 , 最 后 基于 数据 产品 搭建 数据 交易 平台 ,基于 供需 匹配 提供 数据 交易 服务 。 这 其 中 首先 需 
要 解决 的 问题 ,就 是 数据 的 所 有 权 、 使 用 权 、 转 让 权 的 界定 ,以 及 相关 的 数据 安全 隐私 考虑 ; 
其 次 是 数据 定价 、 评 估 ; 数据 交易 规则 的 制定 ; 最 后 是 数据 交易 平台 的 建设 运营 和 相关 的 
配套 设施 和 服务 。 

从 产业 链条 和 产业 生态 的 角度 考虑 ,大 数据 交易 要 解决 数据 来 源 的 问题 。 政 府 已 经 制 
定 政策 ,发布 了 各 政府 部 委 开 放 数 据 的 时 间 表 。 政 府 数 据 开放 能 够 强化 社会 服务 和 监管 ,人 带 
动 数据 创新 和 产业 创新 。 然 而 公开 数据 不 构成 市 场 交 易 的 数据 主体 ,还 需要 更 多 地 引导 和 
鼓励 企业 开放 大 数据 。 大 数据 的 应 用 需要 更 多 的 企业 开发 各 自行 业 、 领 域 的 数据 ,市 场 的 参 
与 者 越 多 ,市 场 的 交易 选择 面 和 灵活 度 越 大 ,能 实现 的 价值 就 越 大 。 


大 数据 - 教 所 管理 和 政 所 fz 入 
一 旦 涉及 数据 的 开放 和 交易 ,就 牵涉 数据 的 安全 和 隐私 。 交 易 数据 会 涉及 政府 及 行业 
数据 .企业 数据 .个 人 数据 等 ,除了 遵守 国家 相关 法 律 之 外 ,还 要 设置 必要 的 安全 和 隐私 保护 
措施 ,对 数据 进行 必要 的 脱 敏 处 理 。 大 数据 交易 还 需要 相关 部 委 制定 关于 大 数据 交易 的 法 
律 法 规 ,引导 市 场 参 与 者 在 提供 大 数据 的 同时 ,对 于 国家 安全 ,个 人 隐私 、 商 业 机 密 等 方面 进 
行 特别 保护 和 人 处理。 同时 ,大 数据 的 交易 并 不 局 限于 原始 数据 或 是 加 工 处 理 和 脱 敏 数据 的 
交易 ,还 可 以 基于 数据 形成 产品 和 服务 ,再 进行 交易 ,就 可 以 有 效 地 规避 原始 数据 和 敏感 数 
据 的 隐私 问题 。 比 如 通信 数据 和 银行 数据 都 非常 敏感 ,直接 的 交易 将 是 非法 的 。 但 如 果 加 

工 成 为 用 户 的 群体 画像 数据 或 是 信用 等 级 数据 ,就 可 以 进行 交易 。 

大 数据 作为 商品 进行 买卖 和 交易 ,和 传统 的 商品 交易 还 有 一 定 的 区 别 。 这 里 面 涉 及 数 
据 的 所 有 权 、 使 用 权 、 转 让 权 , 以 及 数据 商品 的 可 重复 使 用 性 。 一 个 数据 包 作为 商品 ,一 旦 出 
售 ,是 否 产 生 所 有 权 、 使 用 权 的 转变 ?数据 能 否 被 购买 方 转卖 ?能 不 能 多 次 重复 出 售 ? 能 不 
能 同时 卖 给 互相 竞争 的 商家 等 问题 ,这 些 都 跟 数据 属性 和 数据 交易 的 细节 相关 。 

对 数据 资产 的 评估 和 定价 ,也 不 是 一 件 简单 的 事情 。 这 跟 数据 的 数量 、 维 度 、 质 量 、 性 
质 、 新 鲜 度 、 适 用 场景 等 多 种 属性 都 密切 相关 。 一 般 情况 下 ,一 个 数据 包 的 价值 是 跟 其 数量 
和 质量 成 正比 的 ,包含 的 年 度 越 多 ,用 户 数 越 多 ,数据 的 种 类 越 丰 富 ,精度 越 高 ,就 越 值钱 。 
数据 的 价值 ,也 依赖 于 供求 关系 ,但 同样 的 数据 ,对 于 不 同 的 潜在 买 家 ,具有 的 价值 也 可 能 不 
同 。 所 以 在 这 些 方面 ,也 还 需要 探索 和 细 化 。 

最 后 ,关于 大 数据 商品 交易 平台 和 接口 的 建设 也 是 一 项 挑战 。 由 于 大 数据 的 体 量 大 、 规 
格 众多 ,数据 如 何 委托 ` 如 何 存放 .如 何 交付 ,怎样 保障 数据 交付 的 及 时 性 、 准 确 性 ,如 何 防范 
交易 欺诈 和 风险 等 ,都 是 需要 认真 对 待 的 问题 。 

值得 欣慰 的 是 ,在 大 数据 交易 领域 的 先行 者 ,已 经 逐步 积累 了 一 些 数 据 交 易 的 技术 、 经 
验 和 规则 ,并 在 积极 推动 行业 的 进步 和 发 展 。2015 年 5 月 ,在 2015 贵阳 国际 大 数据 产业 博 
览 会 暨 全 球 大 数据 时 代 贵 阳 峰 会 上 ,贵阳 大 数据 交易 所 推出 了 《2015 年 中 国 大 数据 交易 白 
皮 书 》 和 《贵阳 大 数据 交易 所 702 公约 》, 为 大 数据 交易 所 的 性 质 、 目 的 、 交 易 标的 、 信 息 隐 私 
保护 等 指明 了 方向 。 上 海 大 数据 交易 中 心 则 发 布 了 (数据 互联 规则 》, 在 基本 原则 方面 ,强调 
了 个 人 隐私 保护 原则 ,数据 互联 行为 原则 .数据 权益 保护 原则 和 数据 安全 防 控 原 则 。 个 人 隐 
私 保护 原则 包括 告知 同意 .选择 退出 、 禁 止 公开 ,数据 完整 .维护 权益 .应 急 补救 等 几 项 原则 ， 
从 各 个 方面 维护 数据 主体 权益 。 在 数据 互联 的 行为 层面 ,发 布 了 使 用 权 转 移 原则 ,有限 互联 
原则 、 去 身份 原则 、 负 责任 原则 、 禁 止 再 识别 原则 、 权 利 穷 竭 原则 等 ,对 数据 交易 进行 了 规范 。 
另外 ,对 于 数据 权益 保护 和 数据 安全 防 控 ,规则 也 进行 了 详细 的 条 款 设 定 。 其 他 的 交易 所 和 
交易 中 心 也 在 进行 有 益 的 尝试 和 创新 。 

我 们 相信 , 随 着 大 数据 产业 自身 的 不 断 壮大 ,对 大 数据 品类 和 服务 的 需求 也 会 不 断 增 
长 。 随 着 交易 的 进行 和 市 场 参与 者 的 增多 ,大 数据 商品 的 种 类 会 不 断 丰富 ,大 数据 交易 的 服 
务 配套 会 不 断 完善 ,从 而 吸引 更 多 的 市 场 参与 者 ,最 终 形成 一 个 体 量 和 市 场 巨 大 的 新 兴 
产业 。 


4.7.1 大 数据 交易 产业 链 


从 前 面 对 大 数据 交易 产业 的 介绍 可 以 看 到 ,大 数据 交易 产业 链 的 参与 方 包括 数据 供应 
方 ` 数 据 需求 方 ,平台 运营 方 和 行业 监管 方 。 当 然 , 跟 传 统 的 商品 交易 市 场 一 样 :也 可 能 会 出 





和 4 大 数据 的 执 据 苦 合 、 交 换 与 交易 外 
现 数据 代理 方 、 第 三 方 服 务 机 构 和 金融 机 构 等 ,在 这 里 对 他 们 不 做 过 多 的 分 析 和 描述 。 

(1) 数据 供应 方 (卖家 ) : 即 提供 某 方面 大 数据 商品 的 卖家 ,该 类 用 户 拥 有 某 个 方面 的 
数据 ,通过 大 数据 交易 能 形成 产值 和 收入 。 

(2) 数据 需求 方 ( 买 家 ): 对 相关 行业 数据 和 服务 有 需求 的 买 家 ,购买 大 数据 来 提升 自 
己 的 服务 或 产品 。 

(3) 平台 运营 方 (平台 ): 大 数据 交易 平台 的 运营 方 ,通过 提供 大 数据 交易 平台 来 收取 
服务 费 ,获取 利 润 。 

(4) 行业 监管 方 (监管 ): 对 大 数据 交易 进行 行业 引导 和 监管 ,制定 行业 监管 相关 规章 
制度 ,保障 行业 的 平稳 运营 。 

一 个 基本 的 交易 流程 包含 以 下 几 个 步骤 。 

(1) 卖家 对 自己 的 大 数据 进行 加 工 和 处 理 , 保 证 用 于 交易 的 大 数据 商品 遵守 国家 相关 
的 法 律 和 规定 。 

(2) 卖家 在 交易 平台 上 发 布 相关 大 数据 商品 的 信息 ,包括 数据 自身 属性 的 详细 描述 ,也 
可 以 描述 以 往 的 交易 历史 ,包括 历史 买 家 的 行业 描述 等 。 

(3) 买 家 在 交易 平台 上 寻找 感 兴趣 的 大 数据 商品 。 

(4) 买卖 双方 就 数据 的 使 用 权 ,数据 的 转移 ,数据 是 否 可 以 再 次 出 售 ( 时 间 上 ,竞争 对 手 
限制 等 ) ,是 否 委托 第 三 方 技术 公司 进行 数据 分 析 等 ,达成 协议 。 

(5) 买方 支付 交易 金额 ,同时 大 数据 商品 转移 到 买方 。 

(6) 买方 将 对 大 数据 商品 进行 分 析 或 应 用 ,实现 大 数据 商品 的 价值 。 

大 数据 交易 的 市 场 参 与 者 也 可 能 具有 多 重 交易 身份 ,既是 大 数据 的 提供 者 ,也 是 大 数据 
的 消费 者 。 比 如 一 些 大 数据 的 加 工商 和 服务 商 , 由 于 大 数据 商品 的 高 价值 含量 ,可 能 会 先 买 
和 人 数据 ,经 过 处 理 集成 后 ,再 卖 给 大 数据 的 买 家 。 各 类 市 场 参与 者 的 交易 ,能 使 大 数据 交易 
市 场 更 加 活跃 ,增加 市 场 的 流动 性 ,带动 更 多 的 大 数据 商品 的 加 入 和 交易 。 

下 列 公 司 和 机 构 通常 拥有 大 数据 ,是 理想 的 数据 供应 商 。 

政府 部 门 和 科研 机 构 : 据 统计 总 量 数据 的 近 80% 在 政府 及 相关 科研 机 构 手中 。 比 如 政 
务 、 工 商 , 税 务 、 医 疗 、 教 育 、 天 气 、 交 通 、 道 路 ,地质 、 环 境 以 及 科学 研究 的 进展 等 。 美 国联 邦 
政府 自 2009 年 就 开始 了 政府 开放 数据 的 实践 ,并 建立 了 www. data. gov 政府 数据 开放 网 
站 ,将 14 个 大 类 , 共 十 几 万 的 数据 集 开 放 给 公众 ,带动 了 全 美的 数据 创新 产业 。 中 国政 府 也 
制定 了 政府 部 委 开 放 数 据 时 间 表 ,北京 、 上 海 、 杭 州 等 地 已 经 建立 了 相应 的 政府 公开 数据 的 
网 站 。 这 些 数据 的 开放 ,将 极 大 地 促进 数据 服务 和 数据 交易 市 场 的 发 展 。 

大 型 网 络 服务 公司 ,如 美国 的 Google、Yahoo、 微 软 , 国 内 的 百度 、 搜 狐 等 。 这 类 公司 由 
于 在 其 互联 网 服务 领域 的 垄断 性 ,累积 了 海量 的 用 户 和 在 网 络 行为 信息 。 基 于 这 些 信息 ,他 
们 本 身 就 在 进行 相关 的 大 数据 分 析 和 精准 服务 ,比如 搜索 的 相关 性 排名 、 精 准 广 告 等 。 另 
外 ,Google 及 百度 还 可 以 利用 大 数据 做 出 一 些 预测 ,如 流感 的 爆发 .政治 性 事件 的 预测 、 春 
运 人 和 群 的 迁徙 模式 等 。 

大 型 社交 网 站 ,如 Facebook、Twitter、LinkedIn、 新 浪 微 博 、 微 信 等 。 仅 微 信和 的 全 球 用 户 
就 多 达 七 亿 人 ,每 天 在 社交 网 站 上 产生 大 量 的 互动 内 容 。 这 些 网 站 一 般 都 形成 了 自己 的 生 
态 链条 ,通过 应 用 开发 接口 ,这 些 数 据 正在 被 大 量 的 个 人 开发 者 和 技术 公司 使 用 ,用 来 做 各 
种 商业 服务 或 产品 推介 。 
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大 款 刁 上 括 管 更 点 直 拓 二 本 EEC 和 人世 

大 型 实体 商业 公司 或 电子 商务 公司 ,如 大 型 连锁 商店 Walmart、Amazon、 阿 里 巴巴 等 。 
这 类 公司 大 都 拥有 大 量 的 客户 数量 、 长 期 的 客户 购买 记录 、 客 户 的 支付 历史 等 。 这 类 公司 最 
感 兴趣 的 是 客户 购物 的 消费 偏好 和 消费 习惯 。 目 前 ,这 类 公司 的 大 数据 应 用 包括 推荐 关联 
产品 和 推出 新 产品 、 新 服务 上 。 

大 型 服务 公司 ,如 银行 .电信 服务 等 公司 。 这 类 公司 也 拥有 客户 的 某 个 方面 历史 消费 记 
录 , 比 如 银行 可 能 拥有 客户 的 金融 账户 收入 支出 信息 ,电信 公司 拥有 客户 的 电话 或 网 络 使 用 
历史 。 这 类 公司 通常 对 本 行业 内 推出 新 的 产品 和 服务 ,以 及 寻找 潜在 客户 ,降低 业务 风险 较 
感 兴趣 。 

大 型 制造 企业 ,如 福特 汽车 公司 等 。 这 类 公司 因为 其 大 量 的 客户 基础 ,往往 可 以 在 推出 
新 产品 服务 上 使 用 大 数据 技术 和 应 用 。 

对 于 政府 部 委 和 机 构 的 数据 来 说 ,不 同 部 门 的 数据 结合 能 够 提升 政府 治理 和 管理 的 效 
率 , 加 强 对 市 场 和 行业 监管 ,降低 管理 成 本 。 对 于 这 类 数据 的 加 工 和 利用 将 是 大 数据 交易 的 
一 个 重点 板块 。 但 同时 由 于 政府 数据 存在 地 域 性 差异 数据 敏感 性 强 ,还 有 一 些 涉 及 国家 安 
全 和 个 人 隐私 安全 等 情况 ,因此 政府 数据 的 开放 将 是 逐步 的 ,渐进 的 ,针对 不 同 部 门 需要 形 
成 不 同 的 数据 标准 ,在 保障 安全 的 基础 下 开放 和 利用 。 

大 中 型 企业 数据 包括 企业 运营 .管理 .营销 等 数据 以 及 用 户 信息 ,一 些 具备 数据 处 理 和 
分 析 能 力 的 企业 通过 数据 运营 能 够 提升 效率 和 服务 能 力 , 节 省 成 本 ,增加 营 收 ,开拓 新 产品 
和 市 场 。 但 是 更 多 的 企业 仅 依靠 自身 的 数据 无 法 实现 业务 闭环 ,在 人 才 和 资本 等 方面 也 不 
足以 支撑 企业 的 大 数据 利用 ,他 们 需要 通过 大 数据 交易 平台 购买 相应 的 数据 源 和 数据 分 析 
服务 ,来 提升 自身 的 数据 和 业务 能 力 , 这 其 中 流通 的 数据 也 将 创造 更 多 的 价值 。 

个 体 的 数据 可 以 记录 和 反映 个 人 的 不 同 兴趣 ,行为 .意图 以 及 偏好 ,依据 这 些 数 据 可 以 
对 用 户 进行 个 性 化 的 服务 和 精准 营销 。 为 了 规避 用 户 隐 私 问题 , 可 以 聚合 大 量 个 体 信息 形 
成 群体 信息 ,政府 及 企业 可 以 针对 群体 进行 分 析 和 服务 。 比 如 美国 的 亚马逊 网 站 ,80 儿 的 用 
户 再 购买 行为 ,都 是 基于 精准 推荐 系统 为 用 户 所 做 的 推荐 。 大 数据 交易 平台 同样 也 可 以 基 
于 脱 敏 的 群体 和 个 体 信 息 进行 交易 。 

大 数据 交易 平台 是 大 数据 电子 交易 的 载体 ,类 似 于 常规 的 商品 交易 平台 ,在 平台 上 提供 
数据 交易 服务 。 数 据 估 值 由 数据 卖家 、 交 易 平台 以 及 买 家 依据 一 定 的 规则 进行 协商 ,数据 内 
容 和 交易 价格 在 平台 网 站 上 挂 出 。 平 台 则 提供 交易 相关 的 支付 结算 、 交 付 及 安全 保障 等 服 
务 。 具 体 服务 的 方式 以 及 平台 所 承担 的 功能 根据 4.7.2 节 大 数据 交易 模式 的 讨论 也 会 有 一 
定 的 区 别 。 

行业 监管 方 需要 保障 交易 的 公平 .开放 、 合 规 的 运行 ,对 市 场 交易 主体 、 交 易 平台 进行 监 
管 和 引导 ,制定 交易 监管 相应 的 法 律 法 规 。 


4.7.2 大 数据 交易 业务 模式 分 析 
我 们 总 结 市 场 上 当前 存在 的 大 数据 交易 模式 ,可 以 分 为 以 下 三 类 。 


1. 交易 中 介 模 式 


平台 仅 作为 一 个 中 介 方 撮合 买方 和 卖方 ,交易 主要 是 数据 权益 的 交易 。 平 台 本 身 不 做 
数据 存储 ,也 不 加 工 和 分 析 数 据 。 在 这 种 交易 模式 下 ,平台 只 作为 一 个 交易 渠道 ,提供 最 基 
本 的 渠道 (第 三 方 中 介 ) 服 务 ,收取 渠道 费 , 可 以 按 次 收取 ,也 可 以 按 月 费 等 形式 。 
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当前 长 江 大 数据 交易 所 和 中 关 村 大 数据 交易 平台 都 是 这 种 交易 模式 。 长 江 大 数据 交易 
所 主要 侧重 于 交易 管理 和 交易 撮合 ,平台 自身 不 做 数据 加 工分 析 处 理 。 中 关 村 数 海 大 数据 
交易 平台 是 由 中 关 村 大 数据 交易 产业 联盟 发 起 成 立 ,北京 数 海 科 技 有 限 公 司 承建 .运营 。 它 
属于 开放 的 第 三 方 数据 网 上 商城 ,作为 交易 渠道 ,通过 API 接口 形式 为 各 类 用 户 提供 出 售 、 
购买 数据 ( 仅 限 数据 使 用 权 ) 服 务 ,实现 交易 流程 管理 ,平台 按 包 月 或 调用 次 数 进行 收费 。 平 
台 聚 集 了 数 千家 数据 供应 商 , 数 据 交易 额 上 亿 元 。 数 海 还 提供 了 必要 的 数据 实时 脱 敏 、 清 
洗 、 审 核 和 安全 测试 等 基础 数据 处 理 服务 。 

这 种 模式 相对 比较 轻 量 级 ,运营 简单 ,完全 市 场 化 ,可 以 借鉴 传统 的 商品 交易 模式 。 能 
够 有 效 对 接 供需 方 进行 数据 交易 ,为 深层 次 的 数据 交易 黄 定 基础 。 但 同时 由 于 只 是 提供 基 
础 的 中 介 服 务 , 因 而 还 不 能 实现 数据 的 深度 价值 挖掘 和 变现 ,平台 上 的 数据 也 不 能 完全 满足 
市 场 多 样 化 和 层次 化 的 数据 及 服务 需求 。 

2. 数据 产品 交易 模式 

这 种 交易 模式 将 数据 经 过 一 定 的 预 处 理 之 后 ,打包 成 数据 产品 ,然后 在 平台 上 进行 出 
售 。 与 上 一 种 模式 相 比 ,平台 不 仅 作 为 中 介 方 ,还 需要 了 解 买方 的 数据 需求 ,要 么 依托 自身 ， 
要 么 与 卖方 进行 合作 ,对 数据 进行 一 定 的 整理 ,整合 清洗 、 脱 敏 、 包 装 等 处 理 , 形 成 数据 产 
品 , 再 进行 售卖 。 平 台 在 数据 产品 的 形成 过 程 中 参与 度 较 高 ,与 供需 双方 的 协调 合作 也 比 
较 多 。 

这 种 交易 模式 的 典型 代表 是 数据 党 。 数 据 和 党 是 数据 交易 界 的 先行 者 ,成 立 于 2011 年 ， 
2014 年 12 月 在 新 三 板 挂 牌 上 市 。 数 据 堂 主要 从 事 互 联网 领域 的 基础 数据 交易 和 服务 , 自 
己 建 有 交易 平台 。 数 据 堂 一 方面 提供 数据 产品 定制 模式 ,也 就 是 根据 需求 方 的 要 求 , 利 用 网 
络 息 虫 、 众 包 等 合法 途径 采集 相应 数据 ,经 整理 校对、 打包 等 处 理 后 出 售 。 另 一 方面 ,是 与 
其 他 数据 拥有 者 合作 ,通过 对 数据 进行 整合 ,编辑 、 清 洗 、 脱 敏 ,形成 数据 产品 后 出 售 。 目 前 ， 
数据 堂 拥有 4. 5 万 套 .1200TB 以 上 规模 的 数据 源 ,涵盖 科技 、 信 用 交通、 医疗 .卫生 ,通信 、 
地 理 、 质 监 环境 ,电力 等 领域 。 

这 种 模式 能 够 更 好 地 服务 于 买方 的 需求 ,对 数据 进行 定制 和 整合 ,使 数据 的 采集 ,处 理 、 
交易 更 精准 ,提高 了 数据 使 用 效率 。 但 相 比 平台 的 独立 性 要 弱 一 些 ,同时 对 数据 的 处 理 也 是 
相对 较 基 础 的 预 处 理 , 没 有 涉及 深度 分 析 和 挖掘 。 

3. 数据 再 生产 交易 模式 

这 种 模式 比 前 两 种 模式 更 进一步 ,不 局 限于 做 大 数据 底层 和 基础 数据 的 交易 ,而 是 提供 
比较 深入 的 数据 分 析 、 挖 掘 ,可 视 化 服务 ,对 数据 进行 再 加 工 , 再 生产 ,将 处 理 后 的 结果 售卖 
给 数据 需求 方 。 平 台 在 交易 过 程 中 不 仅 提供 交易 服务 ,还 提供 数据 存储 处 理 对 应 的 全 链条 
服务 ,对 数据 进行 深加工 ,因而 能 够 更 多 地 发 掘 数据 的 价值 ,获取 更 高 利润 。 

这 种 交易 模式 以 东湖 大 数据 交易 中 心 和 贵阳 大 数据 交易 所 为 代表 。 东 湖 大 数据 交易 中 
心 是 一 个 提供 数据 共享 算法 服务 及 气 合 交易 的 信息 和 技术 综合 服务 平台 ,平台 自身 提供 各 
项 数据 和 分 析 挖 掘 服务 ; 平台 完全 按照 市 场 模式 ,以 企业 为 运营 和 创新 主体 ,整合 政府 公开 
数据 、 行 业 数据 和 互联 网 数据 ,打造 全 新 的 数据 再 生产 、 融 合 和 价值 发 所 ,运用 创新 金融 模 
式 , 盘 活 政府 ,企业 和 社会 的 数据 存量 。 

贵 明 大 数据 交易 则 握 弃 了 大 数据 产业 交易 底层 数据 的 原始 概念 ,由 交易 所 根据 需求 方 
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大 数据 - 教 所 营 理 地 所 I 程 
要 求 ,对 数据 进行 清洗 、 分 析 、 建 模 、 可 视 化 等 操作 后 形成 处 理 结果 再 出售 。 数 据 还 实行 自动 
计价 连续 交易 ,交易 所 针对 每 一 个 数据 品种 设计 自动 的 计价 公式 ,数据 买方 可 以 通过 交易 系 
统 查 询 每 一 类 数据 的 实时 价格 。 

这 种 交易 方式 更 能 汇聚 高 价值 数据 ,包括 政府 部 门 数据 和 行业 龙头 企业 数据 等 。 同 时 
因为 交易 的 是 数据 分 析 结 果 而 不 是 原始 数据 ,规避 了 困扰 数据 交易 的 数据 隐私 保护 和 数据 
所 有 权 问 题 , 有 利于 活跃 数据 交易 市 场 。 但 由 于 局 限于 交易 所 的 数据 分 析 挖 掘 能 力 , 以 及 对 
数据 的 整合 程度 和 能 力 ,不 一 定 能 满足 细 分 市 场 以 及 深度 的 行业 应 用 的 需求 。 

图 4-15 是 国内 主要 大 数据 机 构 交易 的 一 个 简单 的 对 比分 析 。 


| 主要 大 数据 交易 机 构 对 比分 析 Dnalysys 
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长 江 大 数据 交易 中 心 。 亚信 科技 的 妆 提 产品 愉 ， 允 名 为 企 YW 人 大 


以 个 人 雪 近 交易 为 实 贡 门 ， 下 和 的 中 文大 雪 提 人 局 诺 、 信 下 阵 fn 规 了 技术 - 
东湖 大 数据 交易 中 心中 泣 兽 达 由 
交 e 广 各 活 地 的 大 数据 交易 中 心 也 已 启动 布局 


信和 科 要 提 行业 经 答 。 数 关 村 建立 了 全 国 第 一 家 数据 交易 平台 , 其 在 大 才 氨 产 评 
3 大 雪 所 交易 中 心 数 海 科技 估 技 耐 有 比较 多 的 积累 目前 正在 运 轩 的 中 关 村 数 海 大 数据 
到 及 ia 避 亿 生 有 服务 交易 中 心 、 京 这 台大 数据 交易 中 心 均 由 北京 大 科技 进行 运 车 


图 4-15 国内 主要 大 数据 交易 机 构 对 比 (来 源 - 易 观 智库 ) 


随 着 大 数据 交易 行业 的 发 展 .交易 将 形成 更 深 的 行业 渗透 和 更 广 的 行业 应 用 范围 ,可 以 
预见 到 大 数据 的 交易 模式 的 演进 ,将 会 出 现 交 易 模 式 的 细 分 ,同时 也 会 涌现 出 一 些 混合 模式 
和 混合 业态 。 同 样 , 就 像 传统 的 商品 交易 市 场 的 演进 一 样 ,也 会 出 现 交易 代理 、 交 易 中 介 机 
构 , 同 时 ,基于 数据 产品 和 数据 服务 的 衍生 市 场 ,如 期 货 、 期 权 等 二 级 乃至 三 级 市 场 都 会 过 步 
发 展 出 来 ,我 们 会 看 到 一 个 欣欣 向 荣 的 数据 交易 生态 的 形成 。 


4.7.3 大 数据 交易 发 展 趋势 


大 数据 已 经 成 为 新 时 代 企业 的 资产 ,被 类 比 为 黄金 .石油 、 钻 石 矿 等 高 价值 物品 , 随 着 大 
数据 理论 .技术 、 市 场 和 应 用 在 全 球 的 不 断 深 化 .拓展 和 落地 ,大 数据 将 迎 来 一 个 高 速 增长 
期 ,而 大 数据 交易 作为 市 场 供需 的 有 效 媒介 ,也 会 迎 来 更 蓬勃 的 发 展 。 结 合 整个 大 数据 业态 
的 发 展 ,我 们 预测 大 数据 交易 将 朝 着 以 下 几 个 方面 发 展 。 

(1) 大 数据 交易 的 相关 法 律 法 规 以 及 行业 的 标准 将 出 台 。 目 前 这 方面 的 实践 还 处 在 探 
索 期 ,但 交易 一 定 需 要 法 律 法 规 的 指导 和 监督 ,才能 保障 大 数据 市 场 的 有 效 合 规 运行 ,而 涵 
盖 的 范围 包括 数据 标准 \ 数 据 质量 、 数 据 评估 、 数 据 定 价 、 数 据 安全 、 交 易 标准 、 平 台 运营 、 应 
用 与 服务 等 众多 的 方面 。 

(2) 可 交易 的 数据 类 型 将 更 加 丰富 。 随 着 技术 的 不 断 进步 .大 数据 与 物 联网 、 认 知 的 深 
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度 结合 ,将 会 在 传感器 数据 、 自 然 语 言 处 理 、 语 音 识别 .图 形 图 像 识别 .影像 处 理 、 机 器 学 习 、 
人 工 智 能 等 领域 不 断 拓展 数据 的 采集 、 加 工 处 理 和 交易 范围 。 

(3) 大 数据 交易 的 行业 范围 将 不 断 扩大 。 随 着 各 行业 对 数据 的 需求 ,以 及 数据 开放 度 、 
数据 价值 变现 .数据 标准 的 不 断 发 展 ,将 使 得 更 多 的 行业 通过 大 数据 交易 的 方式 获得 和 售卖 
数据 。 

(4) 大 数据 交易 模式 和 熏 利 模式 的 创新 。 当 前 大 数据 交易 模式 还 比较 局 限 ,未 来 交易 
市 场 和 交易 机 构 会 探索 更 加 多 元 化 .更 加 有 效 的 交易 模式 。 数 据 交易 衍生 市 场 也 必 将 出 现 。 

(5) 大 数据 交易 机 构 之 间 的 数据 交易 可 能 出 现 。 大 数据 交易 的 真正 价值 在 于 流通 , 当 
前 全 国 已 经 有 很 多 区 域 性 和 地 方 性 的 大 数据 交易 机 构 ,在 未 来 , 跨 区 域 . 跨 行业 的 数据 交易 
和 流通 需求 会 不 断 增长 ,促进 横 跨 大 数据 交易 机 构 之 间 的 数据 交易 。 

(6) 需要 更 加 关注 大 量 长 尾数 据 和 中 小 企业 数据 应 用 需求 。 目 前 ,交易 平台 的 参与 者 
主要 以 大 企业 为 主 ,而 实际 上 分 散在 众多 所 有 者 处 的 零散 数据 也 非常 可 观 , 只 是 每 个 所 有 者 
所 有 的 数据 量 不 大 ,不 足以 让 他 们 有 意识 出 售 数据 ,同时 他 们 利用 数据 的 观念 也 不 强 。 成 熟 
的 数据 交易 市 场 需要 足够 数量 的 活跃 供给 方 和 需求 方 ,因此 未 来 交易 平台 需要 激活 存在 于 
大 量 中 小 企业 的 长 尾数 据 , 提 升 中 小 企业 的 大 数据 应 用 和 交易 意识 。 

总 的 来 说 大 数据 交易 发 展 前 景 依赖 于 多 方面 的 因素 ,政府 的 支持 ,数据 的 开放 法律 法 
规 的 完善 .数据 价值 的 挖掘 、 交 易 模式 和 方法 的 演进 等 ,但 其 明朗 的 前 景 和 辉煌 的 未 来 也 是 
人 们 所 共识 的 。 
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随 着 大 数据 产业 的 蓬勃 发 展 , 大 数据 时 代 的 商机 可 以 说 是 无 所 不 在 。 那 么 在 大 数据 时 
代 , 提 供 大 数据 商业 服务 的 企业 的 核心 竞争 力 究竟 在 哪里 呢 ? 我 们 梳理 了 一 个 核心 竞争 力 
的 三 层 架构 ,如 图 5-1 所 示 。 

由 于 数据 已 经 成 为 新 时 代 的 资产 ,因而 
拥有 数据 资产 的 企业 也 就 拥有 了 天 然 的 竞争 
力 ,掌握 着 最 为 核心 的 价值 。 当 今 政府 、 央 企 
所 掌握 的 数据 资源 最 多 , 随 着 这 些 数 据 的 逐 
步 开放 ,围绕 这 些 数 据 所 产生 的 商业 服务 ,其 
产值 也 会 巨大 。 大 型 互联 网 企业 如 阿里 巴 
巴 .腾讯 等 也 掌握 着 庞大 的 数据 资产 ,在 数据 
产业 链 中 居于 上 游 地 位 ,占据 着 产业 优势 。 
数据 变现 ,还 需要 具备 数据 处 理 能 力 。 这 里 
的 能 力 指 的 是 综合 能 力 , 包 括 技术 ,标准 ,管理 .流程 人才 等 综合 的 数据 处 理 能 力 。 有 了 数 
据 能 力 , 就 能 有 效 地 将 数据 资产 转化 为 数据 产品 和 服务 ,实现 数据 的 商业 价值 。 大 型 的 大 数 
据 平台 和 工具 开发 商 , 比 如 Hadoop 平台 服务 商 Cloudera, 以 及 国内 的 如 星 环 、 清 数 这 样 的 
公司 ,拥有 综合 的 数据 处 理 平台 和 技术 ,能 够 帮助 数据 资源 方 发 掘 数据 价值 ,占据 了 产业 链 
的 中 游 。 在 核心 竞争 力 的 末端 和 下 游 .是 数据 的 行业 应 用 和 产业 应 用 。 即 便 有 了 数据 资产 ， 
也 有 数据 能 力 , 开 发 出 了 数据 产品 ,最 终 仍 需要 将 产品 付 诸 应 用 ,才能 构建 一 个 完整 的 产业 
链条 。 因 此 ,具备 行业 应 用 资源 和 经 验 , 能 够 有 效 地 将 数据 产品 和 行业 应 用 结合 的 服务 商 在 
大 数据 价值 链 中 也 能 占据 一 个 重要 的 位 置 , 大 数据 在 医疗 金融、 教育 .工业 制造 ,电子 商务 
等 应 用 领域 都 能 发 挥 巨大 的 价值 。 

数据 资产 位 居 数 据 价值 链 和 核心 竞争 力 的 最 上 游 , 在 未 来 的 大 数据 产业 竞争 中 ,将 起 着 
至 关 重 要 的 作用 。 拥 有 数据 资产 ,就 拥有 了 制胜 的 先决 条 件 , 因 而 数据 资产 就 是 企业 的 命脉 
和 根基 。 然 而 企业 本 身 己 有 的 数据 和 收集 的 数据 并 不 都 能 成 为 资产 。 如 果 不 能 对 数据 进行 
有 效 的 管理 和 治理 ,即使 数据 再 多 ,对 于 企业 来 说 也 只 会 是 垃圾 和 负担 ,非但 不 能 成 为 资产 ， 
还 有 可 能 拖 垮 企业 。 传 统 的 企业 IT 信息 管理 和 数据 管理 中 存在 着 一 些 比较 严重 的 问题 ， 
阻碍 着 数据 有 效 地 转变 为 数据 资产 ,我 们 总 结 有 以 下 几 点 。 

(1) 数据 管理 意识 淡薄 : 没有 认识 到 数据 的 重要 性 ,没有 建立 数据 是 企业 的 核心 资产 
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的 意识 ,更 多 关注 的 是 生产 、 销 售 流程 等 其 他 方面 。 

(2) 未 建立 数据 标准 体系 : 大 部 分 的 传统 企业 都 缺乏 数据 标准 体系 ,数据 的 管理 无 章 
可 循 ,无 法 可 依 ,所 依托 的 是 散乱 的 人 为 的 管理 方法 。 

(3) 不 注重 数据 质量 : 一 些 企业 即便 是 有 数据 管理 的 意识 ,也 建立 了 一 些 不 成 体系 的 
数据 字典 (元 数据 ) 或 数据 标准 ,但 是 数据 质量 参差 不 齐 , 数 据 没 有 做 系统 的 转换 、 清 洗 、 校 验 
和 结构 梳理 ,因而 不 能 得 到 有 效 的 加 工 和 利用 。 

(4) 缺乏 支撑 数据 处 理 的 信息 技术 体系 : 传统 企业 由 于 本 身 信息 系统 的 建设 滞后 或 是 
不 完整 ,更 是 缺乏 新 型 数据 处 理 的 IT 架构 和 体系 ,因而 数据 停留 在 原始 的 粗糙 的 状态 。 

(5) 没有 完整 的 数据 生命 周期 管理 : 数据 没有 被 作为 企业 信息 流转 的 有 效 载体 进行 全 
生命 周期 的 管理 ,只 有 部 分 过 程 被 记录 和 管理 ,其 他 部 分 缺失 ,因而 不 能 形成 对 数据 过 程 的 
有 效 记 录 、 跟 踪 、 回 溯 .审计 及 传递 ,无 法 形成 生命 周期 闭环 。 

(6) 不 能 有 效应 对 数据 的 安全 和 隐私 问题 : 一 旦 数据 的 安全 和 隐私 管理 不 善 ,所 带 来 
的 后 果 及 损失 很 严重 ,因而 在 数据 的 安全 和 隐私 问题 面前 ,出 现 了 令 人 哄笑 不 得 的 局 面 : 一 
方面 知道 数据 蕴含 着 巨大 的 价值 ,一 方面 又 不 敢 触 碰 和 开放 ,致使 很 多 拥有 大 量 丰富 数据 资 
源 的 部 委 和 企业 ,如 移动 税务、 银行 等 , 谈 数 据 开 放 就 色 变 ,被 业界 形容 为 * 坐 在 金山 上 哨 馒 
头 ”。 但 同时 数据 安全 和 隐私 问题 确实 不 可 小 虎 , 需 要 建立 有 效 的 保障 体系 ,并 采用 先进 的 
数据 脱 敏 . 泛 化 .加 密 等 手段 ,有 条 件 地 发 掘 数据 的 价值 。 

以 上 的 问题 涉及 大 数据 管理 和 治理 的 方方面面 ,严重 阻碍 了 企业 的 数据 资产 化 和 价值 
变现 进程 。 因 其 关系 到 体制 体系、 标准 、 技 术 、 安 全 等 各 方面 ,而 建立 和 完善 这 些 方面 的 过 
程 肯定 不 是 一 天 两 天 ,在 这 个 过 程 中 ,大 量 的 数据 在 沉睡 \ 在 长 灰 ,数据 的 价值 被 埋藏 。 因 而 
快捷 高 效 地 建立 好 大 数据 管理 和 治理 体系 ,是 很 多 企业 亚 待 解决 的 问题 。 

在 数据 量 急剧 增长 ,企业 面临 的 竞争 不 断 加 剧 , 以 及 企业 需要 精细 化 运营 、 精 准 地 服务 
客户 的 大 趋势 下 ,大 数据 管理 对 企业 来 说 ,不 再 是 一 种 选择 ,而 是 一 种 必然 ,逃避 和 抵抗 都 是 
徒劳 的 。 这 反映 在 以 下 几 个 方面 。 

首先 ,由 于 企业 需要 处 理 和 整合 的 数据 源 和 数据 量 在 不 断 增 长 ,因而 企业 不 得 不 尽快 加 
强 数据 管理 的 基础 设施 和 提高 数据 管理 技能 ,否则 ,如 果 从 基础 和 技术 角度 远 远 落 后 的 话 ， 
将 会 很 难 再 赶 上 。 容 量规 划 ( 产 能 计划 ) 比 以 往 任 何 时 候 都 要 重要 ,需要 进行 合适 的 调整 以 
适应 大 数据 指数 级 的 增长 。 同 样 地 ,从 商业 角度 来 讲 , 延 迟 使 用 大 数据 将 会 耽误 商业 价值 的 
实现 和 提升 。 

其 次 ,企业 需要 将 大 数据 融入 企业 数据 。 哪 怕 只 是 从 使 用 一 个 大 数据 的 数据 仓库 开始 。 
之 后 需要 逐步 融合 Web 上 日志、 传感器 数据 ,运营 日 志 等 其 他 数据 ,在 这 个 过 程 中 ,还 需要 判 
断 每 个 类 型 的 数据 如 何 融 入 企业 数据 的 总 体 架构 ,如 何 发 挥 价 值 。 对 企业 来 说 ,需要 的 是 利 
用 大 数据 ,而 不 只 是 管理 它 。 收 集 和 存储 大 数据 都 要 花 钱 , 所 以 不 要 让 大 数据 管理 成 为 一 个 
成 本 中 心 , 需 要 寻找 方法 来 从 大 数据 中 获得 商业 价值 。 当 选择 大 数据 平台 来 管理 数据 时 , 需 
要 考虑 成 本 、 价 值 、 新 技术 、 开 源 技术 等 多 方面 因素 。 

大 数据 管理 对 企业 实现 商业 价值 体现 在 以 下 几 个 方面 。 

首先 ,先进 的 数据 分 析 是 从 大 数据 获得 商业 价值 的 主要 路 径 ,这 是 很 明显 的 事实 , 它 其 
至 有 一 个 专门 的 名 字 : 大 数据 分 析 。 随 着 大 数据 可 用 性 的 提高 ,企业 对 高 级 分 析 的 需求 也 
在 增长 ,可 以 从 其 研究 中 获得 新 的 商业 事实 和 见解 。 
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关闭 全 相生 从 下 本 

将 大 数据 与 传统 数据 相 结合 是 另 一 种 实现 价值 的 途径 。 例 如 ,对 客户 或 其 他 业务 实体 
的 360 度 画 像 , 当 同 时 基于 传统 企业 数据 和 大 数据 会 更 加 完善 和 强大 。 大 数据 可 以 来 自 新 
客户 接触 点 如 移动 应 用 、 社 交 媒 体 等 ,就 可 以 丰富 对 客户 的 视图 。 

大 数据 可 以 扩展 旧 的 应 用 。 这 包括 前 面 所 提 到 的 任何 依赖 于 对 用 户 进行 全 方位 画像 的 
应 用 。 大 数据 也 能 够 加 强 分 析 型 应 用 对 于 数据 样本 的 解析 能 力 ,特别 是 在 欺诈 防范 ,风险 控 
制 和 客户 细 分 方面 。 

大 数据 还 可 以 催生 新 的 应 用 。 例 如 ,近年 来 ,一 些 货运 公司 和 交通 部 门 已 经 添加 了 大 量 
传感器 到 每 个 车 队 的 车 辆 和 动车 /高 铁 车 体 中 。 来 自传 感 器 的 数据 流 使 他 们 能 够 更 有 效 地 
管理 移动 资产 ,更 加 及 时 可 靠 地 运送 ,可 以 识别 不 符合 规范 的 经 营 ,并 提前 发 现 需要 维修 的 
车 辆 或 部 件 , 而 传统 的 方式 是 很 难 做 到 的 。 

那么 大 数据 的 管理 和 治理 体系 ,具体 涉及 哪些 方面 呢 ? 其 实 上 面 所 列 出 的 问题 ,也 就 是 
我 们 具体 要 解决 的 方面 了 。 我 们 把 它们 更 系统 地 归纳 为 以 下 几 个 方面 。 

(1) 建立 数据 驱动 的 管理 体系 和 架构 ; 

(2) 大 数据 治理 体系 ,这 其 中 包含 数据 标准 、 数 据 质量 、 数 据 生命 周期 等 关键 部 分 ; 

(3) 大 数据 信息 技术 体系 ; 

(4) 大 数据 安全 隐私 管理 体系 。 


5.1 建立 数据 驱动 的 管理 体系 和 架构 


我 们 已 经 进入 数据 技术 (DT) 数据 驱动 的 时 代 。 在 企业 中 ,传统 的 资产 .产品 .生产 系 
统 、 财 务 系统 、 软 件 系统 都 有 专人 负责 管理 。 那 么 当 数 据 成 为 企业 核心 资产 时 ,也 需要 有 专 
门 的 管理 机 构 .管理 人 员 、 管 理 条 例 等 相应 的 管理 体系 和 架构 。 企 业 在 向 数据 驱动 的 运营 模 
式 转 型 和 变革 的 时 候 ,首先 应 该 从 组 织 和 机 构 变 革 做 起 ,企业 应 该 设立 专门 负责 数据 架构 和 
管理 的 组 织 及 团队 ,其 形式 可 以 是 实体 的 管理 组 织 , 也 可 以 是 虚拟 的 ,但 一 定 是 横 跨 不 同业 
务 部 门 和 项 目的 。 这 个 管理 组 织 需要 不 断 完善 数据 管理 和 治理 的 架构 ,标准 及 流程 ,提升 企 
业 数 据 规划 ,设计 、 开 发 和 交付 的 质量 ,负责 数据 资产 的 全 生命 周期 维护 ,并 保障 数据 的 安全 
和 隐私 。 


5.1.1 建立 数据 管理 组 织 和 团队 


即使 拥有 世界 上 最 先进 的 数据 管理 规范 和 指导 ,首先 还 是 需要 有 这 些 规范 的 执行 者 ,也 
就 是 需要 首先 建立 数据 管理 组 织 架 构 和 团队 。 结 合 企业 自身 的 管理 体系 ,在 架构 上 一 般 可 
以 分 为 领导 决策 层 、 部 门 主管 层 和 执行 层 。 

领导 决策 层 : 可 由 企业 的 高 级 管理 人 员 来 担任 ,负责 制定 企业 的 数据 管理 ,数据 运营 、 
数据 决策 战略 ,并 落实 到 中 下 层 的 具体 执行 策略 和 计划 上 。 现 在 在 很 多 大 型 的 现代 企业 和 
从 事 新 兴业 务 板块 的 企业 中 ,都 在 设立 首席 数据 官 (Chief Data Officer,CDO) 的 职位 。CDO 
不 仅 是 技术 层面 的 ,企业 中 的 数据 工作 需要 独立 于 业务 部 门 、IT 部 门 、 销 售 部 门 而 存在 , 同 
时 又 需要 和 这 些 部 门 紧密 相连 ,对 业务 部 门 、 品 牌 部 门 负责 。CDO 已 经 进入 企业 的 最 高 决 
策 层 , 一 般 直接 向 CEO 汇报 ,可 以 很 好 地 将 数据 的 价值 与 企业 的 决策 关联 起 来 。 

部 门 主管 层 可 以 由 业务 部 门 主管 ,IT 部 门 主管 ,执行 项 目 经 理 等 来 组 成 和 担任 ,也 可 以 
由 专职 人 员 来 担任 。 很 多 企业 还 会 设立 专门 的 数据 部 ,独立 于 其 他 部 门 ,甚至 是 在 企业 战略 
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层面 高 于 其 他 部 门 ,需要 其 他 部 门 来 配合 CDO 和 数据 部 制定 的 数据 驱动 战略 。 

在 数据 驱动 变革 方面 取得 很 大 成 功 的 当 属 全 球 最 大 的 职业 社交 平台 LinkedIn。 
LinkedIn 早 在 2010 年 就 成 立 了 独立 的 数据 分 析 部 门 ,由 此 部 门 进行 的 深度 数据 分 析 最 后 
成 为 推动 其 产品 、 营 销 、 服 务 等 各 部 门 的 创新 动力 。 很 多 企业 只 是 将 数据 分 析 作 为 业务 及 
IT 部 门 的 外 延 或 项 目 管理 来 定位 ,LinkedIn 却 将 其 作为 独立 部 门 设置 ,与 研发 .产品 .市 场 、 
销售 .运营 等 5 大 核心 部 门 并 列 存 在 。 独 立 的 数据 分 析 部 门 能 够 对 几 亿 注册 用 户 通 过 集成 
数据 架构 .BI 数据 挖掘 和 分 析 , 直接 满足 近 70% LinkedIn 内 部 员工 的 数据 分 析 需 求 , 能 够 
覆盖 和 驱动 其 他 5 个 商业 职能 部 门 。 

独立 的 LinkedIn 数据 分 析 部 已 经 几乎 支撑 了 LinkedIn 的 所 有 业务 ,推动 了 LinkedIn 
主流 商业 模型 之 间 的 结合 与 相互 驱动 ,形成 一 个 良性 增长 的 闭环 。 首 先是 数据 分 析 推 动 了 
用 户 的 增长 ,提高 了 用 户 的 体验 ,其 次 ,用 户 的 增长 和 体验 增加 了 很 多 后 台 和 前 台 的 数据 , 然 
后 ,LinkedIn 会 从 这 些 新 的 数据 里 面 发现 更 多 的 解决 方案 和 产品 ,以 推动 商业 的 增长 .用 户 
的 体验 和 用 户 数量 的 增加 ,从 而 进入 一 个 数据 的 正 向 循环 。 

具体 执行 层 : 执行 层 主体 可 能 是 数据 部 的 员工 ,但 总 体 数据 战略 的 执行 ,会 关乎 企业 的 
每 一 个 部 门 和 员工 。 正 如 上 面 提 到 的 LinkedIn 的 案例 ,最 终 数据 分 析 部 与 其 他 部 门 形成 了 
一 个 良性 的 循环 ,带动 了 企业 的 全 面 发 展 。 


5.1.2 建立 数据 管理 规章 和 制度 


很 显然 ,在 设立 了 CDO 及 数据 部 门 等 管理 执行 组 织 架 构 之 后 ,他 们 所 制定 的 数据 战略 
需要 得 到 有 效 的 执行 和 保障 ,那么 就 需要 有 配套 的 数据 管理 办 法 、 职 责 划 分 ,绩效 等 数据 管 
理 规章 和 制度 。 这 需要 结合 企业 实际 ,为 数据 管理 战略 及 策略 的 开展 和 执行 制定 切实 可 行 
的 管理 办 法 、 业 务 流程 、 人 员 角 色 和 岗位 职责 、 认 责 体系 ,并 建立 好 相应 的 支持 环境 。 由 于 大 
数据 管理 还 涉及 数据 管理 的 技术 架构 体系 ,以 及 大 数据 管理 本 身 所 用 到 的 管理 工具 管理 平 
台 、 管 理 软件 等 ,因而 这 些 规 章 和 制度 还 涵盖 这 些 工 具 及 技术 的 相关 操作 流程 。 

管理 执行 组 织 负责 监督 ,管理 .实施 和 执行 与 大 数据 管理 及 治理 相关 的 一 切 流程 与 环 
节 , 包 括 制定 并 审核 数据 政策 .标准 和 程序 ; 审阅 和 批准 数据 架构 ; 计划 和 发 起 数据 管理 项 
目 和 服务 ; 评估 数据 资产 价值 和 相关 成 本 ; 数据 管理 监督 和 控制 ; 监督 数据 专业 组 织 和 工 
作 人 员 ; 协调 数据 治理 活动 ; 管理 和 解决 数据 相关 问题 ; 监控 和 确保 遵守 法 律 法 规 ; 监控 
和 确保 符合 数据 政策 ,标准 和 架构 ; 监督 数据 管理 项 目 和 服务 ; 交流 和 宣传 数据 资产 的 价 
值 等 等 诸多 方面 。 


5.2 大 数据 治理 体系 


数据 治理 指 的 是 数据 资产 管理 的 权威 性 和 控制 性 活动 (规划 、 监 视 和 强制 执行 ) ,数据 治 
理 是 对 数据 管理 的 高 层 计 划 与 控制 。 大 数据 治理 体系 的 构建 为 数据 管理 工作 提供 强 有 力 的 
系统 支撑 。 建 立 一 个 完整 的 数据 治理 体系 可 以 从 组 织 架 构 、 标 准 、 质 量 、 系 统 功能 等 方面 增 
强 数 据 宏观 管控 ,在 微观 上 实现 精细 化 管理 。 数 据 治理 模块 主要 包括 数据 标准 管理 ,数据 质 
量 管理 .元 数据 管理 、 主 数据 管理 .数据 生命 周期 管理 ,数据 安全 管理 等 ,这 些 模块 协同 运营 ， 
确保 数据 规范 一致 .安全 、 有 效 。 

(1) 数据 标准 管理 : 建立 数据 标准 体系 ,并 制定 数据 标准 运 维 管控 制度 和 流程 。 
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(2) 数据 质量 管理 : 保证 数据 的 完整 性 一致 性 、 准 确 性 、 及 时 性 、 合 法 性 ,提升 用 户 使 
用 体验 。 

(3) 元 数据 管理 : 维护 基础 数据 描述 。 

(4) 主 数据 管理 : 管理 核心 数据 。 

(5) 数据 生命 周期 管理 : 重点 建设 从 数据 资产 的 规划 、 注 册 ,运营 到 注销 的 全 流程 管理 
体系 ,使 数据 资产 管理 系统 化 、 可 视 化 。 

(6) 数据 安全 管理 : 建立 体系 化 的 数据 安全 管控 策略 ,实现 全 方位 数据 安全 管控 机 制 ， 
通过 技术 手段 与 管理 措施 相 结合 的 方式 保障 数据 安全 。 


5.2.1 数据 标准 管理 


制定 和 维护 数据 标准 对 于 大 数据 管理 至 关 重 要 。 如 果 缺 乏 相应 的 标准 ,那么 数据 管理 
将 无 章 可 循 ,数据 质量 也 将 无 从 保证 ,数据 的 应 用 、 交 换 和 共享 也 会 混乱 无 序 。 数 据 标准 管 
理 体 系 如 图 5-2 所 示 , 包 括 数据 标准 的 规划 、 数 据 标准 的 实施 ,以 及 数据 标准 的 相关 支撑 。 
数据 标准 的 规划 包括 制定 数据 标准 体系 和 实施 线路 图 ; 数据 标准 支撑 部 分 主要 是 前 面 所 提 
到 的 相关 的 组 织 架构 ,管理 办 法 及 制度 , 除 此 之 外 ,还 需要 一 些 数据 标准 的 管理 工具 。 数 据 
标准 的 实施 是 相对 比较 关键 的 部 分 , 它 包 括 标准 的 制定 .执行 .维护 和 监控 。 
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图 5-2 数据 标准 管理 体系 


数据 标准 的 制定 包括 数据 标准 的 编制 .数据 标准 的 审查 和 数据 标准 的 发 布 。 标 准 的 制 
定 需要 依托 一 个 数据 标准 化 管理 组 织 , 该 组 织 一 般 需 要 是 一 个 行业 性 的 组 织 , 需 要 依托 行业 
专家 共同 发 起 对 标准 的 讨论 .制定 ,修改 和 维护 。 当 然 也 不 排除 制定 小 范围 的 企业 内 部 的 一 
些 数据 标准 。 

数据 标准 的 编制 .审查 和 发 布 过 程 一 般 有 以 下 几 个 步骤 。 

(1) 数据 标准 化 管理 组 织 召集 数据 提供 者 和 执行 者 参与 数据 标准 相关 属性 的 收集 、 整 
理 、 加 工 等 工作 ,并 按照 协商 一 致 的 原则 形成 数据 标准 初稿 。 

(2) 数据 标准 初稿 经 过 多 次 的 讨论 ,修改 和 丰富 后 ,形成 数据 标准 送审 稿 提 交 给 数据 标 
准 管理 决策 者 。 
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(3) 经 过 数据 标准 管理 决策 者 的 讨论 审核 后 ,由 数据 标准 化 管理 组 织 再 次 进行 数据 标 
准 的 修改 完善 ,并 完成 数据 标准 的 发 布 。 

数据 标准 的 执行 是 指数 据 标准 的 落地 实施 和 执行 过 程 ,并 且 对 执行 过 程 进 行 监控 和 检 
查 , 保 证 标准 执行 到 位 。 

数据 标准 的 维护 则 是 依据 行业 、 时 代 和 技术 的 发 展 ,对 标准 进行 必要 的 修订 。 

数据 标准 的 监控 则 是 对 标准 的 执行 建立 考核 体系 ,并 进行 日 常 和 实施 落地 的 监控 。 

从 数据 标准 化 实践 来 说 ,企业 需要 梳理 好 核心 的 元 数据 、 主 数据 ,形成 相应 的 规范 化 的 数 
据 框 架 和 模型 ,然后 做 好 执行 、 监 控 和 维护 。 这 整个 标准 化 的 管理 流程 本 身 也 需要 规范 化 。 

数据 的 标准 化 一 般 会 涉及 数据 的 编码 标准 ,编码 是 用 于 唯一 区 别 一 条 数据 记录 的 特殊 
标识 。 编 码 需要 统一 规划 统一 编制 ,这 样 可 以 避免 各 企业 或 企业 部 门 各 自 为 政 ,对 数据 进 
行 独立 的 编码 ,导致 数据 整合 中 发 生 不 兼容 、 重 码 、 元 余 、 冲 突 等 各 种 问题 。 再 一 个 是 数据 的 
分 类 标准 ,是 用 于 将 具有 相同 数据 属性 ,管理 要 求 和 系统 要 求 的 数据 进行 分 类 分 组 的 标准 。 
通过 这 样 的 分 类 标准 对 数据 进行 专项 化 的 着 重 管理 ,并 为 业务 管理 和 分 析 提 供 基 础 参照 。 
数据 标准 还 涉及 数据 字段 和 属性 的 规范 化 , 即 规定 每 个 数据 字段 内 容 的 填写 和 检验 的 规范 ， 
保证 所 有 数据 在 整个 企业 或 行业 范围 内 的 规则 统一 。 数 据 的 交互 流程 和 业务 规则 也 需 制 定 
相应 的 标准 。 


5.2.2 数据 质量 管理 


数据 质量 可 以 定义 为 数据 的 “适用 性 ”, 也 就 是 数据 是 否 满足 应 用 的 需求 ,满足 的 程度 越 
高 ,说 明 数 据 质量 越 高 。 数 据 质 量 是 开发 数据 产品 、 提 供 数 据 服务 、 发 挥 大 数据 价值 的 必要 
前 提 , 是 数据 治理 的 关键 因素 。 数 据 质量 一 般 需 要 满足 准确 性 、 完 整 性 .一 致 性 .及 时 性 、 合 
法 性 等 多 个 维度 。 所 谓 准 确 性 ,就 是 数据 必须 真实 准确 地 反映 所 发 生 的 业务 ; 完整 性 是 指 
数据 是 充分 的 ,任何 相关 的 数据 都 没有 被 遗漏 ; 一 致 性 是 指数 据 之 间 是 相关 的 ,有 一 定 的 相 
互 约束 ,数据 在 不 同 场景 下 这 种 相互 关联 性 都 需要 一 致 ， 及 时 性 是 数据 需要 及 时 更 新 ,不 能 
是 过 期 的 ; 合法 性 是 指数 据 需 要 合理 合法 地 获取 和 使 用 。 

数据 质量 管理 首先 需要 从 管理 和 机 制 上 着 手 ,需要 建立 合理 的 数据 管理 机 构 ,制定 数据 
质量 管理 机 制 ,落实 人 员 执 行 责任 ,保障 组 织 间 高 效 的 沟通 ,持续 监控 数据 应 用 过 程 , 加 上 强 
有 力 的 督促 才能 保障 高 效 优质 的 数据 质量 管理 。 

数据 质量 管理 的 过 程 包括 规则 制定 ,问题 发 现 . 质 量 训 析 、 数 据 清理 .评估 验证 、 持 续 监 
控 等 环节 ,同时 还 需 结合 实践 进行 定制 和 优化 。 首 先是 根据 数据 标准 制定 数据 质量 校 验 的 
业务 和 技术 规则 ,以 及 对 应 的 数据 质量 问题 发 现 及 管理 ; 然后 按照 数据 质量 维度 对 抽样 或 
全 局 数据 进行 剖析 ,并 结合 评估 验证 进行 数据 清理 ; 最 后 通过 数据 质量 持续 监控 ,以 数据 质 
量 报告 的 形式 汇报 并 反映 数据 质量 的 状况 及 问题 。 整 个 过 程 需要 形成 常态 化 持续 化 的 闭 
环 , 才 能 持续 改进 数据 质量 。 数 据 全 过 程 质量 管理 框架 以 改进 数据 质量 为 目标 ,确保 数据 的 
准确 、 完 整 .一致 和 及 时 性 。 

数据 质量 如 果 得 不 到 保障 ,将 会 对 业务 目标 的 完成 造成 很 大 的 影响 。 数 据 质 量 管理 人 
员 必 须 找到 并 使 用 数据 质量 指标 ,报告 数据 缺陷 与 受 影响 业务 目标 之 间 的 关系 。 定 义 数据 
质量 指标 的 过 程 存在 着 挑战 ,识别 并 管理 业务 相关 的 数据 质量 指标 ,可 以 与 监控 业务 活动 绩 
效 相 类 比 ,数据 质量 指标 应 该 合理 地 反映 数据 质量 情况 ,为 数据 质量 管理 提供 量化 依据 。 在 
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定义 数据 质量 指标 的 过 程 中 ,需要 充分 考虑 可 度量 性 .业务 相关 性 、 可 接受 程度 .可 控 性 、 可 
追踪 性 等 特性 ,并 与 数据 认 页 制度 充分 结合 。 首 先 需 要 分 析 业 务 影响 ,并 评估 相关 的 数据 元 
素 以 及 数据 生命 周期 流程 ; 其 次 针对 每 个 数据 元 素 , 列 出 与 之 相关 的 数据 需求 ,并 定义 数据 
质量 维度 以 及 业务 规则 ; 最 后 针对 业务 规则 ,描述 度量 需求 满足 度 的 流程 ,并 定义 可 接受 程 
度 的 阔 值 。 

数据 质量 问题 是 指数 据 不 适合 业务 运行 .管理 与 决策 的 程度 。 由 于 数据 质量 需求 涉及 
的 范围 和 影响 程度 不 一 ,需要 通过 分 析 数 据 质量 问题 级 别 进 行 分 类 。 较 小 的 需求 只 需要 对 
单 系 统 数据 项 进行 修改 ,处 理 方式 相对 简单 : 中 间 的 需求 是 对 业务 口径 、 技 术 口 径 的 确定 ， 
较 大 的 需求 则 有 大 规模 跨 部 门 的 系统 级 建设 或 改造 需求 ,对 其 根源 进行 剖析 甚至 需要 进行 
业务 规则 的 调整 。 找 到 质量 问题 所 在 之 后 ,对 问题 进行 评估 验证 ,并 进行 适当 的 数据 清理 ， 
可 以 解决 相应 的 质量 问题 ,改善 数据 质量 ,之 后 进行 持续 的 质量 监控 ,这 是 整个 数据 质量 的 
管理 闭环 过 程 。 


5.2.3 元 数据 管理 


元 数据 (Metadata) 是 关于 数据 的 描述 。 在 企业 数据 管理 中 ,又 可 分 为 技术 元 数据 和 业 
务 元 数据 。 技 术 元 数据 是 存储 关于 数据 管理 系统 如 数据 仓库 系统 技术 细节 的 数据 ,是 用 于 
开发 和 管理 该 数据 仓库 所 使 用 的 数据 , 它 主 要 包括 以 下 信息 : 数据 仓库 结构 的 描述 ,包括 仓 
库 模 式 、 视 图 , 维 \ 层 次 结构 和 导出 数据 的 定义 ,以 及 数据 集 市 的 位 置 和 内 容 ; 业务 系统 、 数 
据 仓库 和 数据 集 市 的 体系 结构 和 模式 等 。 业 务 元 数据 则 从 业务 角度 描述 数据 仓库 中 的 数 
据 , 它 提供 一 个 介 于 使 用 者 和 实际 系统 之 间 的 语义 层 , 使 得 不 懂 计 算 机 技术 的 业务 人 员 也 能 
够 “ 读 懂 ”数据 仓库 中 的 数据 。 业 务 元 数据 主要 包括 以 下 信息 : 使 用 者 的 业务 术语 所 表达 的 
数据 模型 .对 象 名 和 属性 名 ; 访问 数据 的 原则 和 数据 的 来 源 ; 系统 所 提供 的 分 析 方法 以 及 
公式 和 报表 的 信息 。 比 如 说 企业 概念 模型 ,这 是 业务 元 数据 所 应 提供 的 重要 的 信息 , 它 表示 
企业 数据 模型 的 高 层 信息 、 整 个 企业 的 业务 概念 和 相互 关系 等 。 

如 图 5-3 所 示 为 数据 仓库 元 数据 示例 。 


= 








源 系统 数据 模型 数据 集 市 商务 智能 工具 
图 5-3 数据 仓库 元 数据 示例 了 
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元 数据 的 管理 同样 包含 相应 的 管理 组 织 架 构 的 设 定 , 以 及 元 数据 管理 的 规章 规则 等 ,在 
此 基础 上 ,再 定义 元 数据 的 管理 流程 ,包括 元 数据 的 定义 、 元 数据 的 变更 、 元 数据 的 同步 、 元 
数据 的 权限 管理 ,以 及 元 数据 检查 及 报告 。 由 于 元 数据 包含 企业 的 基础 和 敏感 信息 ,因此 安 
全 和 权限 管理 也 很 重要 ,为 加 强 数据 安全 及 隐私 保护 ,对 每 个 元 数据 ,可 以 设置 对 应 的 数据 
隐私 级 别 信息 ; 同时 可 以 细 化 元 数据 权限 ,对 于 不 同 的 部 门人 员 、 角 色 ,都 只 能 授予 对 应 的 
权限 ,对 于 权限 变化 要 严格 审批 。 

元 数据 管理 的 建设 将 贯穿 大 数据 平台 及 系统 的 建设 、 使 用, 运营、 维护 的 全 过 程 , 并 发 挥 
以 下 关键 作用 。 

(1) 元 数据 提供 了 关键 数据 的 详细 描述 ,使 用 户 了 解数 据 组 成 、 结 构 及 数据 流向 。 可 以 
快速 建立 业务 与 技术 之 间 的 衔接 ,为 企业 管理 提供 重要 的 保障 。 

(2) 使 用 元 数据 管理 可 以 自动 化 地 获取 整个 企业 的 数据 业务 含义 ,帮助 内 外 部 客户 更 
好 地 理解 数据 ,提高 数据 使 用 的 效率 。 

(3) 使 用 元 数据 产品 能 够 方便 内 部 管理 .审计 或 外 部 监管 的 需求 追溯 业务 指标 、 报 表 的 
数据 来 源 和 加 工 过 程 ,追溯 数据 的 来 源 。 

(4) 可 以 追溯 系统 间 信息 生命 周期 ,包括 对 数据 进行 的 操作 和 流程 ,便于 用 户 进行 分 析 
判断 、 问 题 定位 。 

(5) 元 数据 管理 提高 了 信息 的 透明 度 、 有 效 性 、 可 访问 性 ,一 致 性 及 可 用 性 。 它 有 助 于 
依靠 节约 成 本 ,提高 资产 价值 .利益 相关 者 满意 度 和 卓越 运营 来 调整 IT 投资 。 


5.2.4 主 数据 管理 


主 数据 (Master Data) 是 对 企业 至 关 重 要 的 核心 业务 实体 的 数据 ,比如 客户 .产品 .订单 
等 。 这 些 数据 分 布 在 企业 的 各 个 业务 系统 之 中 。 由 于 企业 信息 化 程度 的 不 断 深 入 , 跨 业 务 、 
跨 部 门 、 跨 业务 系统 之 间 的 业务 连贯 性 需求 越 来 越 迫 切 ,因而 对 企业 系统 数据 的 一 致 性 、 完 
整 性 和 准确 性 提出 了 新 的 要 求 。 主 数据 是 各 个 业务 系统 需要 共享 的 数据 ,能 帮助 企业 构建 
单一 、 准 确 、. 权 威 的 数据 来 源 。 

主 数据 管理 是 制定 一 组 规程 .技术 和 解决 方案 ,用 于 为 所 有 跟 主 数据 打交道 的 各 方 (如 
用 户 、 应 用 程序 数据 仓库 、 流 程 以 及 商业 伙伴 ) 在 创建 .访问 和 维护 业务 数据 时 ,能 保持 一 致 
性 \ 完 整 性 、 相 关 性 和 精确 性 。 

主 数据 管理 围绕 的 是 数据 的 管理 ,不 会 创建 新 的 数据 或 新 的 垂直 数据 结构 。 它 提供 了 
规程 和 方法 ,使 企业 能 够 有 效 地 管理 存储 在 分 布 系统 中 的 数据 。 主 数据 管理 还 提供 先进 的 
技术 和 流程 ,用 于 自动 准确、 及 时 地 分 发 和 分 析 整 个 企业 中 的 数据 ,并 对 数据 进行 验证 。 

主 数 据 的 管理 体系 如 图 5-4 所 示 , 与 其 他 的 管理 体系 类 似 ,首先 需要 设立 主 数据 管理 的 
相关 组 织 机 构 ,管理 流程 及 标准 规范 等 。 然 后 各 类 主 数据 ,比如 来 自 人 事 、 财 务 、.OA 、ERP、 
CRM 等 业务 系统 的 数据 ,在 主 数据 管理 系统 中 需要 注册 、 申 请 、 审 批 \ 准 入 ,然后 可 以 进行 
修改 和 维护 。 当 不 需要 或 被 淘汰 的 时 候 ,要 完成 注销 和 废弃 的 过 程 。 


5.2.5 数据 资产 的 全 生命 周期 管理 


数据 资产 是 指 企业 及 组 织 拥 有 或 控制 的 能 带 来 经 济 利 益 的 数据 资源 。 企 业 的 数据 有 可 
能 成 为 资产 ,但 不 是 所 有 数据 都 能 具备 资产 的 属性 。 数 据 资 产 包含 如 下 几 个 要 素 : 四 被 企 
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已 








图 5-4 主 数据 管理 体系 


业 拥 有 和 控制 ; @ 能 够 用 货币 来 计量 ; @@ 能 为 企业 带 来 经 济 利 益 。 

数据 资产 化 使 得 从 资产 的 角度 开展 数据 管理 工作 变 为 可 能 ,将 有 助 于 多 角度 、 全 方位 开 
展 数据 的 管理 ,明确 数据 安全 级 别 ,落实 资产 责任 管理 ,是 实现 数据 变现 的 必要 前 提 。 数 据 
资产 化 包含 数据 资产 梳理 盘点 和 数据 价值 评估 的 过 程 。 

数据 的 价值 根据 其 相关 性 的 不 同 而 各 不 相同 ,而 数据 相关 性 又 因数 据 使 用 者 而 异 。 对 
某 个 人 群 没 有 价值 的 数据 ,可 能 对 另外 一 个 人 群 相 当 有 用 ; 在 某 个 时 间 段 内 没有 价值 的 数 
据 , 可 能 在 另 一 个 时 间 段 内 相当 有 用 。 

数据 资产 的 管理 如 图 5-5 所 示 ,包括 6 个 部 分 。 





数据 资产 生成 


版 本 管理 


图 5-5 数据 资产 架构 图 


(1) 接口 管理 : 与 元 数据 管理 模块 .数据 质量 管理 模块 .数据 安全 管理 模块 对 接 , 收 集 
相关 模块 的 基础 数据 ,用 于 完成 数据 资产 的 注册 、 核 查 及 安全 管理 等 工作 。 

(2) 注册 管理 : 数据 资产 的 注册 管理 ,并 提供 审核 及 版 本 控制 等 功能 。 

(3) 变更 管理 : 支持 已 注册 数据 资产 信息 的 变更 维护 ,并 进行 相关 审核 。 

(4) 审计 管理 : 支持 对 数据 资产 的 盘点 ,以 及 对 数据 资产 访问 记录 的 审计 。 
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(5) 权限 管理 : 对 接 数据 安全 管理 模块 ,设置 系统 、 业 务 和 用 户 对 数据 资产 访问 的 相关 
权限 。 

(6) 统计 分 析 : 支持 对 数据 资产 的 属性 、 变 更 .质量 、 访 问 情况 等 信息 的 统计 分 析 , 依 据 
这 些 信息 还 可 以 对 数据 资产 进行 综合 评估 。 

定义 清晰 明确 的 数据 资产 信息 ,能 有 效 支撑 公司 内 部 知识 系统 和 资源 管理 的 建设 ,业务 
人 员 能 更 快捷 、 有 序 、 便 利 地 提供 资产 使 用 的 方式 和 途径 ,支撑 数据 分 析 、 开 发 . 运 维 的 自治 。 
数据 资产 化 后 ,能 实现 成 果 和 经 验 的 共享 和 积累 ,方便 实现 应 用 和 数据 的 生命 周期 的 自动 化 
管理 。 

数据 资产 管理 过 程 是 一 个 资产 全 生命 周期 的 管理 过 程 ,以 数据 资产 作为 管理 对 象 ,以 资 
产 战略 和 资产 策略 为 导向 ,从 系统 整体 目标 出 发 ,统筹 考虑 资产 的 规划 投资. 设计、 建设、 运 
行 、 维 护 \ 核 查 、. 变 更 .注销 的 全 过 程 ,在 满足 安全 、 效 能 的 前 提 下 有 效 管理 与 监控 数据 资产 的 
生产 和 使 用 情况 ,不 断 优化 数据 资产 质量 ,实现 数据 资产 的 业务 价值 。 其 管理 过 程 如 图 5-6 
所 示 。 


资产 开发 资产 发 布 
资产 战略 有 资产 策略 资产 注销 ‖ 资产 清理 
资产 接收 | 资产 保护 | 资产 审计 | 资产 变更 


全 生命 周期 阶段 划分 





图 5-6 数据 资产 全 生命 周期 管理 


数据 资产 全 生命 周期 管理 过 程 分 为 如 下 4 大 阶段 。 

(1) 战略 规划 : 按照 业务 需要 和 业务 发 展 要 求 ,建立 数据 资产 的 总 体 规划 。 制 定 帮助 
所 有 的 数据 资产 供应 者 以 及 消费 者 运营 和 发 展 的 服务 战略 。 该 阶段 主要 包含 制定 数据 资产 
战略 规划 和 制定 数据 资产 策略 计划 等 关键 任务 和 活动 。 

(2) 注册 入 库 : 按照 战略 规划 和 战略 计划 进行 数据 资产 的 设计 、 建 设 和 交付 。 针 对 需 
求 进行 分 析 设 计 , 根 据 战略 阶段 的 要 求 与 规范 ,定义 数据 资产 的 结构 等 ,是 资产 管理 中 的 重 
要 组 成 。 该 阶段 主要 包含 设计 和 开发 数据 资产 .数据 资产 注册 .和 人 库 及 数据 资产 保护 等 关键 
任务 和 活动 。 

(3) 运营 维护 : 对 数据 资产 的 有 效 使 用 进行 管控 ,确保 数据 资产 健康 运营 。 运 营 维护 
包含 数据 资产 发 布 .资产 稽核 ,监控 告警 .资产 评估 ,资产 审计 ,资产 变更 等 方面 。 这 些 方面 
具体 体现 为 : 提供 数据 资产 给 授权 的 用 户 使 用 ; 对 数据 资产 进行 盘点 ,监控 数据 资产 的 使 
用 情况 ,对 数据 资产 访问 记录 进行 审计 ; 对 数据 资产 从 规划 到 运营 阶段 的 情况 进行 全 方位 、 
多 维度 的 统计 分 析 , 对 资产 内 容 标准 化 、 合 规 性 的 稽核 评价 ,根据 评估 结果 有 目的 地 对 数据 
资产 进行 改进 和 完善 。 

(4) 注销 报废 : 该 阶段 主要 是 对 无 效 和 失效 的 资产 进行 清理 ,主要 包括 资产 注销 和 报 
废 清除 等 任务 和 活动 。 在 注销 报废 阶段 ,对 已 失效 的 资产 ,由 管理 者 注销 资产 ,并 由 运 维 者 
销毁 资产 对 象 。 

在 其 生命 周期 中 还 必须 建立 完整 的 信息 安全 管理 措施 和 技术 方案 ,加 强 数据 信息 安全 
管控 。 
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5.3 大 数据 技术 管理 体系 


新 兴 的 大 数据 正在 迫使 许多 企业 和 组 织 进行 改变 。 大 数据 的 特性 带 来 了 大 型 数据 集 和 
非 传 统 数 据 结构 的 许多 管理 困难 。 很 多 的 企业 正在 提升 他 们 的 数据 管理 技能 ,扩展 数据 管 
理 软件 的 投资 组 合 ,以 此 来 提升 数据 管理 能 力 。 这 能 带 给 他 们 更 多 的 业务 流程 自动 化 .实时 
化 ,并 通过 分 析 有 价值 的 新 的 因素 和 属性 ,深入 了 解 业务 操作 流程 客户 、 合 作 伙 伴 等 ,提高 
运营 效率 和 服务 质量 。 

从 大 数据 的 技术 栈 来 说 ,在 第 3 章 大 数据 平台 的 架构 体系 中 详细 介绍 了 ,包括 大 数据 的 
基础 设施 支持 ,采集 、 存 储 、 处 理 、 交 互 展示 、 应 用 以 及 大 数据 的 运营 管理 ,安全 管理 等 。 其 中 
与 传统 数据 管理 密切 相关 的 有 数据 仓库 和 企业 BI 商业 智能 ,只 是 需要 做 大 数据 的 架构 升级 
和 调整 。 除 此 之 外 ,大 数据 技术 管理 体系 还 涉及 大 数据 的 流程 管理 ,事务 管理 等 方面 。 大 数 
据 的 技术 管理 体系 是 和 大 数据 的 治理 体系 紧密 结合 的 ,帮助 企业 完成 架构 、 组 织 、 模 式 、 标 
准 、 技 术 等 全 方位 的 转型 和 升级 。 

从 企业 的 大 数据 管理 实践 角度 ,尽管 大 数据 相对 来 说 还 是 新 兴 事 物 ,但 据 美国 的 一 项 调 
研 已 经 有 近 一 半 的 机 构 正 在 积极 探索 和 尝试 大 数据 管理 。 这 其 中 一 部 分 是 在 对 现 有 的 数据 
和 应 用 的 结构 和 关系 在 进行 调整 ,打造 大 数据 的 基础 数据 治理 地 基 。 而 另外 一 部 分 则 把 从 
Web 服务 器 .设备 、 传 感 器 .客户 互动 和 社交 媒体 等 新 的 数据 源 获得 的 大 数据 与 传统 数据 整 
合 在 一 起 进行 管理 。 

从 技术 实践 角度 ,有 四 分 之 一 的 企业 已 经 成 功 扩大 现 有 应 用 和 数据 库 来 处 理 新 兴 的 大 
数据 量 。 另 四 分 之 一 通过 采用 新 的 管理 和 分 析 多 源 异 构 的 大 数据 专用 的 数据 管理 平台 而 走 
在 最 前 沿 。 更 多 的 则 正在 评估 大 数据 平台 .了 解 大 数据 的 相关 产品 和 服务 ,带动 了 大 数据 市 
场 的 活跃 度 。 

据 调查 ,Hadoop 分 布 式 文件 系统 HDFS,MapReduce 和 各 种 Hadoop 工具 是 市 场 上 最 
受 大 数据 管理 欢迎 的 软件 产品 。 其 他 包括 复杂 事件 处 理 ( 用 于 数据 流 处 理 )、NoSQL 数据 库 
(用 于 非 结 构 化 数据 管理 ) 、 内 存 数据 库 ( 用 于 大 数据 的 实时 分 析 处 理 )、 私 有 云 等 。 

各 个 组 织 和 机 构 也 正在 调整 他 们 的 最 佳 技术 实践 来 适应 大 数据 管理 。 大 多 数 在 学 习 
ETL 一 一 数据 的 抽取 、 转 换 和 加 载 来 支持 数据 仓库 和 报表 。 对 大 数据 分 析 的 准备 是 相似 
的 ,但 有 所 不 同 。 各 个 组 织 正在 对 现 有 人 员 进 行 再 培训 ,增加 顾问 以 增强 他 们 的 团队 ,招聘 
新 的 人 员 。 重 点 对 象 是 可 以 开发 用 于 数据 探索 和 发 现 的 分 析 型 应 用 的 数据 分 析 师 、 数 据 科 
学 家 和 数据 架构 师 , 通 过 这 些 实践 来 从 大 数据 中 得 到 价值 。 


5.3.1 数据 类 型 和 结构 


大 数据 的 一 个 重要 特点 就 是 多 样 性 ,这 就 意味 着 数据 来 源 极 其 广泛 ,数据 类 型 极为 繁 
杂 。 这 种 复杂 的 数据 环境 给 大 数据 的 处 理 带 来 了 极 大 的 挑战 。 而 足够 的 数据 量 是 企业 大 数 
据 战 略 建设 的 基础 ,因此 对 多 源 异 构 数 据 的 管理 是 大 数据 价值 挖掘 中 的 重要 一 环 , 其 后 的 数 
据 分 析 与 挖掘 都 是 建立 在 其 基础 上 的 。 

结构 化 数据 仍 占 主导 。 到 目前 为 止 ,结构 化 数据 是 数据 管理 中 最 为 常见 的 数据 类 型 , 占 
比 60% 以 上 。 这 种 结构 化 数据 大 多 数 是 关系 型 的 ,这 意味 着 关系 型 数据 仍然 是 非常 突出 的 。 
因而 ,DBMS、SQL 与 其 他 应 用 于 关系 数据 的 工具 类 型 和 技术 对 于 管理 大 数据 仍 很 重要 。 
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半 结 构 化 数据 是 最 突出 的 辅助 数据 类 型 。 有 很 多 的 数据 混合 了 结构 化 数据 、 层 次 结构 、 
文本 等 数据 类 型 ,形成 了 半 结 构 化 数据 。 常 见 的 例子 有 遵守 XML、JSON 和 RSS 标准 的 文 
件 。 巧 合 的 是 ,这 些 文件 通常 用 作 消 息 和 事件 的 格式 ,因此 它们 也 可 以 被 认为 是 事件 数据 ， 
其 (与 半 结 构 化 的 数据 ) 成 为 大 数据 的 主要 辅助 数据 类 型 。 

网 络 数据 。Web 服务 器 和 Web 应 用 程序 已 经 普及 二 十 多 年 ,而 Web 数据 又 是 当今 大 
数据 的 常见 来 源 。 但 很 多 的 企业 还 没有 开始 管理 他 们 的 Web 日 志和 点 击 流 。Web 数据 的 
分 析 和 相应 的 Web 优化 是 大 数据 管理 的 一 个 很 好 的 切 人 点。 网 络 数据 一 般 都 可 归 类 到 结 
构 化 和 半 结 构 化 数据 中 。 

社交 媒体 数据 重要 性 在 不 断 欧 升 。 社 交 媒 体 网 站 兴起 的 时 间 并 不 长 ,用 户 机 构 近 几 年 
才 开始 收集 社会 数据 进行 研究 。 然 而 由 于 现在 的 年 轻 用 户 群 体 大 部 分 都 是 在 社交 媒体 网 站 
上 面 互动 ,因而 社交 数据 的 管理 和 利用 越 来 越 重 要 。 社 交 媒 体 由 于 其 天 然 的 社交 属性 ,因而 
数据 之 间 的 关联 是 管理 的 重要 部 分 ,经 常 需要 采用 一 些 基于 图 的 存储 结构 。 

传感器 数据 .机 器 数据 和 地 理 空间 数据 开始 兴起 。 由 于 物 联 网 技术 和 其 广泛 应 用 ,以 及 
基于 位 置 的 服务 (LBS) 的 兴起 ,很 多 机 构 正 在 管理 和 利用 这 些 数 据 类 型 ,作为 比较 突出 的 辅 
助 数 据 类 型 。 

科学 数据 和 监测 数据 。 一 般 都 是 科研 机 构 和 政府 机 构 在 收集 和 存储 此 类 数据 。 

由 于 所 有 形式 的 非 结 构 化 数据 都 需要 较 高 的 专门 技术 和 技能 ,因而 非 结 构 化 大 数据 的 
管理 具备 较 高 的 挑战 性 ,其 中 比较 主流 的 非 结 构 化 数据 库 的 形式 有 人 类 语言 或 音频 /视频 、 
私人 文件 .电子 邮件 等 。 


5.3.2 数据 存储 管理 


针对 上 述 不 同类 型 的 数据 ,可 以 采取 不 同 的 大 数据 存储 和 管理 方式 。 常 用 的 有 针对 分 
布 式 文件 存储 类 型 的 HDFS 文件 系统 ,基于 此 文件 系统 也 可 以 进行 基于 MapReduce 计算 
框架 的 分 布 式 文档 处 理 。Hadoop 普及 程度 较 高 ,是 因为 Hadoop 在 管理 和 处 理 极端 大 数据 
以 实现 数据 集成 .数据 仓库 和 分 析 方 面 的 良好 声誉 ,管理 成 本 低 。HDFS 集群 已 知 可 扩展 到 
数 千 个 节点 ,这 些 节 点 可 扩展 以 处 理 数 百 TB 的 基于 文件 的 数据 。 此 外 ,作为 数据 类 型 不 可 
知 的 文件 系统 ,HDFS 管理 非常 广泛 的 基于 文件 的 数据 , 它 可 以 是 结构 化 的 、 非 结构 化 的 、 半 
结构 化 的 或 混合 的 。HDFS 集群 架构 与 HDFS 之 上 的 其 他 Hadoop 产品 为 广泛 的 数据 密集 
型 应 用 提供 了 一 个 可 扩展 和 相对 高 性 能 的 平台 。 

对 于 结构 化 和 半 结 构 化 数据 ,也 可 采用 SQL/NoSQL/NewSQL 的 存储 和 处 理 方式 。 
如 果 是 基于 NoSQL 的 存储 方式 , 则 又 需要 根据 具体 的 数据 存储 和 处 理 类 型 进行 细 化 的 存 
储 选 型 ,具体 的 选 型 原则 可 以 参考 下 面 的 一 些 指 标 。 

根据 不 同 的 分 类 标准 ,NoSQL 数据 库 有 不 同 的 分 类 方式 ,最 常用 的 是 根据 数据 存储 模 
型 和 特点 进行 的 分 类 方式 ,如 表 5-1 所 示 。 

表 5-2 则 列 出 了 不 同 存储 模型 的 特点 和 性 能 比较 ,其 中 ,key-value 存储 的 操作 简单 , 具 
有 很 高 的 性 能 .扩展 性 和 灵活 性 ; 列 存储 相 比 灵活 性 要 差 一 些 ,但 支持 的 功能 要 相对 多 一 
些 。 文 档 存储 则 可 以 针对 某 些 字段 建立 索引 ,能 够 实现 关系 数据 库 的 一 些 功 能 。 

上 面 提 到 的 一 些 NoSQL 数据 库 按照 数据 模型 和 查询 接口 分 类 还 可 以 细 分 如 表 5-3 
所 示 。 
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表 5-1 NoSQL 数据 库 分 类 一 一 按 存储 模型 
类 型 部 分 代表 特 点 
Pe 0 按 列 存储 结构 。 方 便 存储 结构 化 和 半 结构 化 数据 ,方便 做 数 
据 压 缩 , 对 针对 某 一 列 或 某 几 列 的 查询 具有 IO 优势 
Hypertable 
MongoDB 文档 存储 一 般 用 类 似 JSON(JavaScript Object Notation) 的 格 
文档 存储 CouchDB 式 存储 ,存储 的 内 容 是 文档 型 的 ,便于 对 某 些 字段 建立 索引 ， 
实现 关系 数据 库 的 部 分 功能 
Redis 
Riak 
MemcacheDB 
Tokyo Cabinet 可 以 通过 key 快速 查询 相应 value, 不 必 考 虑 value 的 存储 
key-value 存储 
Tokyo Tyrant 格式 
Voldemort 
Scalaris 
Berkeley DB 
图 存储 Neo4j 图 形 关系 的 最 佳 存储 。 如 果 使 用 关系 型 数据 库存 储 的 话 ,性 
FlockDB 能 低 , 而 且 设计 复杂 
对 象 存储 Db4o 通过 类 似 面向 对 象 语言 的 语法 操作 数据 库 , 通 过 对 象 的 方式 
Versant 存 取 数 据 
XML 数据 库 Berkeley DB XML 高 效 存 储 XML 数据 ,并 支持 XML 的 内 部 查询 语法 , 比如 
BaseX XQuery. Xpath 
表 5-2 存储 模型 比较 
性 能 扩展 性 灵活 性 复杂 性 功 能 
关系 型 数据 库 可 变 低 低 适中 关系 代数 
key-value 存储 高 高 高 低 简单 
列 存储 高 高 适中 低 较 少 
文档 存储 高 可 变 (高 ) 高 低 可 变 ( 低 ) 
图 数据 库 可 变 可 变 高 高 图 论 
表 5-3 数据 模型 和 查询 接口 
NoSQL 数据 库 数据 模型 查询 API 
HBase 列 族 ColumnFamily Thrift 
Cassandra 列 族 ColumnFamily Thrift, REST 
MongoDB 文档 Document 游标 
CouchDB 文档 Document Map/ Reduce 视图 
Riak key-value 嵌 套 哈 希 ,REST 
Redis 集合 Collection 集合 
Scalaris key-value get/put 
Tokyo Cabinet key-value get/put 
Voldemort key-value get/put 
Neo4j 图 Graph 图 
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在 存储 多 渠道 来 源 的 数据 时 ,往往 以 上 的 一 种 单一 存储 架构 并 不 能 满足 所 有 的 存储 和 
处 理 需求 。 这 时 候 需要 融合 的 存储 方案 ,也 就 是 底层 的 存储 架构 可 能 会 包含 文件 型 存储 ,用 
于 存储 语音 .图片 等 数据 ,也 会 包含 结构 化 和 半 结 构 化 的 数据 库 , 用 户 处 理 交 易 .查询 类 的 数 
据 , 这 类 实践 在 大 数据 管理 领域 也 不 少见 。 


5.3.3 数据 仓库 和 商业 智能 


基于 关系 型 数据 库 管理 系统 的 数据 仓库 平台 仍 占据 主导 地 位 ,不 管 是 基于 SMP 还 是 
MPP 架构 。 但 总 的 趋势 明显 是 朝向 MPP 在 发 展 , 因 为 它 在 大 规模 并 行 数据 操作 方面 有 突 
出 的 优点 。 而 对 SMP 来 说 , 它 仍 然 是 操作 和 交易 应 用 程序 的 首选 架构 。 

在 大 数据 时 代 , 越 来 越 多 的 企业 也 在 采用 分 布 式 数据 仓库 体系 结构 。 在 多 负载 环境 下 ， 
要 设计 和 优化 一 个 单一 平台 的 数据 仓库 来 使 得 所 有 的 工作 负载 运行 效果 最 佳 , 甚 至 是 同时 
运行 的 时 候 效 果 最 佳 ,是 一 大 难题 。 越 来 越 多 的 DW 团队 认为 ,一 个 单一 的 平台 数据 仓库 
不 再 是 可 取 的 。 他 们 选择 保留 传统 工作 负载 的 核心 数据 仓库 平台 (如 报告 .绩效 管理 、 
OLAP) ,把 其 他 工作 负载 卸载 到 其 他 平台 上 去 。 例 如 ,对 基于 SQL 的 数据 分 析 和 处 理 常常 
印 载 到 DW 设备 和 纵 列 DBMSs。 将 大 数据 和 高 级 分 析 的 工作 负载 印 载 到 HDFS、 
MapReduce 和 其 他 类 似 的 平台 上 。 其 结果 是 引起 了 分 布 式 数 据 仓库 架构 的 强劲 走势 。 

衡量 和 选择 数据 仓库 的 体系 结构 的 一 种 方法 是 计算 它 所 支持 的 工作 负载 的 数量 。 常 规 
的 数据 仓库 一 般 只 支持 最 常见 的 工作 负载 , 即 那 些 标准 的 报告 绩效 管理 和 在 线 分 析 处 理 
(COLAP) 。 而 大 数据 往往 需要 支持 具有 高 级 分 析 .详细 的 源 数据 和 实时 数据 源 的 工作 负载 。 
因而 ,数据 仓库 的 工作 负载 的 数量 和 多 样 性 的 增加 是 企业 拥抱 大 数据 .多 结构 化 数据 .实时 
数据 或 流 数据 ,以 及 用 于 高 级 分 析 的 数据 管理 和 处 理 的 结果 。 

从 企业 级 数据 仓库 (EDW) 到 多 平台 的 分 布 式 数 据 仓库 环境 (DWE)。 以 工作 量 为 中 心 
的 方式 导致 了 现今 放弃 单一 平台 的 巨 无 霸 EDW ,而 转向 物理 分 布 式 数 据 仓库 环境 DWE 的 
趋势 。 一 个 现代 的 DWE 由 多 个 平台 类 型 组 成 ,包括 传统 的 仓库 和 新 的 平台 ,如 DW 设备 、 
纵 列 DBMSs、NoSQL 数据 库 .MapReduce 工具 和 HDFS。 虽 然 多 平台 的 方式 使 DW 环境 
更 加 复杂 ,但 是 对 BL/DW 专家 不 是 太 困 难 的 事 。 同 时 ,用 户 可 以 从 工作 负载 调整 上 获得 高 
性 能 和 高 可 靠 的 信息 结果 。 

在 操作 层面 ,向 实时 的 增 量 移动 操作 是 当今 在 BIDW 、 数 据 管理 和 分 析 方 面 最 具 影 响 
力 的 趋势 。 例 如 ,实时 操作 (BI 和 分 析 ) 需 要 非常 新 的 数据 在 以 实时 或 接近 实时 的 速度 收 
集 、 处 理 和 交付 。 为 实现 这 个 目的 ,实时 数据 融入 EDW 已 经 比较 常见 。 应 用 的 实例 包括 金 
融 交 易 系 统 、 业 务 活动 监控 ,效用 监控 、 电 子 商 务 产 品 推 荐 和 设施 的 监测 监控 等 。 

在 BI 领域 , 随 着 大 数据 的 普及 , 泛 BI 的 概念 在 大 规模 数据 化 运营 的 企业 里 正 越 来 越 深 
人 人 心 。 泛 BI 其 实 就 是 逐渐 淡化 数据 分 析 师 团队 作为 企业 数据 分 析 应 用 的 唯一 专业 队伍 
的 印象 ,让 更 多 的 业务 部 门 也 逐渐 参与 数据 分 析 和 数据 探索 ,让 更 多 业务 部 门 的 员工 也 逐渐 
掌握 数据 分 析 的 技能 和 意识 。 泛 BI 其 实 也 是 数据 化 运营 的 全 民 参 与 的 特征 所 要 求 的 ,是 更 
高 一 级 的 数据 化 运营 的 全 民 参 与 。 在 这 个 阶段 .业务 部 门 的 员工 不 仅 要 积极 参与 数据 分 析 
和 模型 的 具体 应 用 实践 ,更 要 求 他 们 能 自主 自发 地 进行 一 些 力 所 能 及 的 数据 分 析 和 数据 探 
索 。 泛 BI 概念 的 逐渐 深入 普及 ,向 数据 分 析 师 和 数据 分 析 团 队 提 出 了 新 的 要 求 , 数 据 分 析 
师 和 数据 分 析 团 队 承 担 了 向 业务 部 门 及 其 员工 指导 ,传授 有 关 数 据 分 析 和 数据 探索 的 能 力 
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培养 的 工作 ,这 正 发 展 成 为 一 种 新 兴 的 业态 。 


5.3.4 数据 计算 和 处 理 


如 5. 3. 3 节 所 述 , 对 大 数据 的 存储 管理 可 以 采取 HDFS 分 布 式 文件 系统 的 方式 ,在 其 
上 的 计算 框架 则 一 般 基 于 MapReduce 并 行 处 理 , 通 常 以 大 规模 并 行 处 理 (MPP) 的 形式 , 进 
行 高 性 能 数据 密集 型 运算 。MapReduce 是 一 个 执行 引擎 ,可 以 为 多 种 编程 语言 编写 的 手工 
编码 例 程 提 供 多 线程 并 行 性 。 典 型 的 分 析 应 用 程序 是 在 Java、Pig、Hive 或 R 例 程 中 编写 分 
析 逻 辑 , 然 后 让 MapReduce 使 用 并 行 处 理 来 执行 例 程 ,以 访问 由 HDFS 集群 管理 的 大 量 的 
文件 和 数据 存储 库 。 当 MapReduce 以 这 种 方式 部 署 在 HDFS 上 层 时 ,结果 是 一 个 高 性 能 
分 析 应 用 程序 ,可 以 扩展 到 大 量 数据 集 上 。 

对 于 数据 的 查询 统计、 分 析 则 通常 可 以 基于 SQL/NoSQL/NewSQL 的 架构 之 上 ,对 
多 维 数据 的 分 析 和 钻 取 则 可 以 基于 上 述 的 数据 仓库 DW/BI 的 架构 之 上 。 对 数据 的 深度 
分 析 和 利用 则 需要 依赖 数据 挖掘 、 人 工 智 能 、 深 度 学 习 、 社 会 计算 等 高 级 的 处 理 和 分 析 
手段 。 

由 于 对 数据 处 理 的 实时 性 要 求 越 来 越 高 ,因而 基于 Hadoop 的 批 处 理 模 式 在 很 多 场景 
中 都 不 足以 满足 性 能 要 求 ,那么 基于 Spark 交互 式 处 理 平台 ,以 及 类 似 Storm、 Spark 
Streaming 的 流 式 处 理 平台 正在 成 为 大 数据 实时 计算 的 主流 平台 。 同 时 ,复杂 事件 处 理 机 
制 CEP 作为 处 理 多 数据 流 的 和 多 数据 源 关联 的 关键 技术 ,也 得 到 了 更 多 的 采用 。 流 计 算 和 
CEP 是 大 数据 计算 和 处 理 中 增长 最 快 的 技术 方向 。 


5.3.5 数据 展示 与 交互 


数据 的 展示 和 交互 技术 在 第 3 章 也 做 了 阐述 ,除了 传统 的 二 维 报 表 和 图 表 , 还 可 以 采用 
信息 图 (多 维 数据 和 信息 的 综合 展示 )、GIS 地 图 .2D/3D 图 形 泻 染 / 动 画 , 乃 至 可 穿戴 设备 、 
可 植 入 设备 进行 交互 和 展示 。 同 时 , 随 着 虚拟 现实 /增强 现实 /混合 现实 (VR/AR/MR) 在 
全 球 的 普及 ,这 些 最 先进 的 交互 技术 也 可 以 被 广泛 应 用 ,尤其 是 在 大 数据 教育 .培训 、 旅 游 、 
娱乐 ,体验 等 相关 领域 ,这 些 技术 可 以 发 挥 它们 独特 的 优势 ,提供 给 用 户 很 强 的 沉浸 感 和 代 
人 感 。 

从 大 数据 技术 的 发 展 角 度 ,当前 出 现 了 将 探索 式 数 据 分 析 和 可 视 化 结合 的 敏捷 可 视 化 
趋势 。 敏 捷 可 视 化 允许 将 多 种 数据 源 结 合 分 布 式 存储 及 内 存 存储 ,让 用 户 进 行 可 视 化 探索 ， 
包括 多 种 可 视 化 的 组 件 ,这 些 组 件 还 可 以 随时 增加 和 增强 ,用 户 可 以 自由 灵活 地 对 数据 进行 
组 合 关联 ,然后 选择 可 视 化 方法 做 近乎 实时 的 分 析 和 呈现 。 基 于 这 样 的 探索 ,用 户 可 以 根据 
业务 需求 ,快速 生成 业务 报告 ,构建 企业 的 Dashboard( 总 控 台 或 驾驶 舱 )， oie 
到 企业 的 业务 服务 器 上 ,还 可 以 在 多 种 设备 端 查看 相应 的 分 析 结 果 并 能 随时 做 出 调整 。 这 
样 极 大 地 增强 了 数据 分 析 的 自主 性 、 灵 活性 和 实时 交互 性 。 


5.4 大 数据 事务 管理 


事务 是 应 用 程序 中 一 系列 严密 的 操作 ,所 有 操作 必须 成 功 完成 ,否则 在 每 个 操作 中 所 做 
的 所 有 更 改 都 会 被 撤销 。 事 务 也 是 并 发 控制 的 单位 。 事 务 是 传统 关系 型 数据 库 的 逻辑 工作 
单位 , 它 是 用 户 定义 的 一 组 操作 序列 。 一 个 事务 可 以 是 一 组 SQL 语句 、 一 条 SQL 语句 或 整 
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个 程序 。 

事务 的 开始 和 结束 都 可 以 由 用 户 显 式 地 控制 ,如 果 用 户 没 有 显 式 地 定义 事务 , 则 由 数据 
库 系 统 按 默认 规定 自动 划分 事务 。 

数据 库 事务 特性 : 众所周知 ,关系 数据 库 中 事务 的 正确 执行 必须 满足 ACID 特性 , 即 原 
子 性 (Atomicity) 一致 性 (Consistency) 、 隔 离 性 (Isolation) 和 持久 性 (Durability)。 对 于 数 
据 强 一 致 性 的 严格 要 求 使 其 在 很 多 大 数据 场景 中 都 无 法 应 用 。 在 这 种 情况 下 出 现 了 新 的 
BASE 特性 , 即 只 要 求 满足 Basically Available( 基 本 可 用 ), Soft State( 和 柔性 状态 ) 和 
Eventually Consistent( 最 终 一 致 )。ACID 追求 一 致 性 C, 而 BASE 更 加 关注 可 用 性 A。 正 
是 在 事务 处 理 过 程 中 对 于 ACID 特性 的 严格 要 求 ,使 得 关系 型 数据 库 的 可 扩展 性 极其 有 限 。 


5.4.1 事务 的 基本 属性 


事务 应 该 具有 4 种 属性 : 原子 性 一致 性 .隔离 性 和 持久 性 。 

1. 事务 的 原子 性 

事务 的 原子 性 保证 事务 包含 的 一 组 更 新 操作 是 原子 不 可 分 的 ,也 就 是 说 这 些 操 作 是 一 
个 整体 ,对 数据 库 而 言 全 做 或 者 全 不 做 ,不 能 部 分 完成 。 这 一 性 质 即 使 在 系统 崩溃 之 后 仍 能 
得 到 保证 ,在 系统 崩溃 之 后 将 进行 数据 库 恢复 ,用 来 恢复 和 撤销 系统 崩溃 处 于 活动 状态 的 事 
务 对 数据 库 的 影响 ,从 而 保证 事务 的 原子 性 。 系 统 对 磁盘 上 的 任何 实际 数据 的 修改 之 前 都 
会 将 修改 操作 信息 本 身 的 信息 记录 到 磁盘 上 。 当 发 生 骨 省 时 ,系统 能 根据 这 些 操 作 记录 当 
时 该 事务 处 于 何 种 状态 ,以 此 确定 是 撤销 该 事务 所 做 出 的 所 有 修改 操作 ,还 是 将 修改 的 操作 
重新 执行 。 

2. 事务 的 一 致 性 

一 致 性 要 求 事务 执行 完成 后 ,将 数据 库 从 一 个 一 致 状态 转变 到 另 一 个 一 致 状态 。 它 是 
一 种 以 一 致 性 规则 为 基础 的 逻辑 属性 ,例如 在 转账 的 操作 中 ,各 账户 金额 必须 平衡 ,这 一 条 
规则 对 于 程序 员 而 言 是 一 个 强制 的 规定 ,由 此 可 见 ,一致 性 与 原子 性 是 密切 相关 的 。 事 务 的 
一 致 性 属性 要 求 事务 在 并 发 执行 的 情况 下 事务 的 一 致 性 仍然 满足 。 它 在 逻辑 上 不 是 独立 
的 , 它 由 事务 的 隔离 性 来 表示 。 

3. 事务 的 隔离 性 

隔离 性 意味 着 一 个 事务 的 执行 不 能 被 其 他 事务 干扰 。 即 一 个 事务 内 部 的 操作 及 使 用 的 
数据 对 并 发 的 其 他 事务 是 隔离 的 ,并 发 执行 的 各 个 事务 之 间 不 能 互相 干扰 。 它 要 求 即使 有 
多 个 事务 并 发 执行 ,看 上 去 每 个 成 功 事务 像 按 串 行 调度 执行 一 样 。 这 一 性 质 的 另 一 种 称 法 
为 可 串 行 性 ,也 就 是 说 系统 允许 的 任何 交错 操作 调度 等 价 于 一 个 串 行 调度 。 串 行 调 度 的 意 
思 是 每 次 调度 一 个 事务 ,在 一 个 事务 的 所 有 操作 没有 结束 之 前 ,另外 的 事务 操作 不 能 开始 。 
由 于 性 能 原因 ,我 们 需要 进行 交错 操作 的 调度 ,但 我 们 也 希望 这 些 交 错 操作 的 调度 的 效果 和 
某 一 个 串 行 调度 是 一 致 的 。DM 实现 该 机 制 是 通过 对 事务 的 数据 访问 对 象 加 适当 的 锁 , 从 
而 排斥 其 他 的 事务 对 同一 数据 库 对 象 的 并 发 操作 。 

4. 事务 的 持久 性 

系统 提供 的 持久 性 保证 要 求 一 旦 事务 提交 ,那么 对 数据 库 所 做 的 修改 将 是 持久 的 ,无 论 
发 生 何 种 机 器 和 系统 故障 都 不 应 该 对 其 有 任何 影响 。 例 如 ,自动 柜员 机 (ATM) 在 向 客户 支 
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付 一 笔 钱 时 ,就 不 用 担心 丢失 客户 的 取款 记录 。 事 务 的 持久 性 保证 事务 对 数据 库 的 影响 是 
持久 的 ,即使 系统 崩溃 。 正 如 在 讲 原子 性 时 所 提 到 的 那样 ,系统 通过 做 记录 来 提供 这 一 
保证 。 

5.4.2 大 数据 事务 管理 机 制 


通常 ,HBase 及 Cassandra 等 NoSQL 数据 库 主 要 是 提供 高 可 扩展 性 支持 ,在 一 致 性 和 
可 用 性 方面 会 做 相应 的 牺牲 ,在 对 传统 的 RDBMS 的 ACID 语义 .事务 支持 等 方面 存在 不 
足 。 因 此 有 很 多 大 数据 系统 努力 尝试 把 NoSQL 与 传统 的 关系 型 数据 库 融 合 ,并 为 一 致 性 
和 高 可 用 性 提供 强 有 力 的 保证 ,我 们 以 Google 的 Megastore 数据 库 来 说 明 大 数据 的 事务 管 
理 机 制 。 

Megastore 使 用 同步 复制 来 达到 高 可 用 性 和 数据 的 一 致 性 视图 。Megastore 为 了 达到 
这 个 目标 ,在 RDBMS 和 NoSQL 中 取 了 折 中 ,将 数据 进行 分 区 ,每 个 分 区 进行 复制 ,分 区 内 
部 提供 完全 的 ACID 语义 ,但 是 分 区 和 分 区 之 间 只 保证 有 限 的 一 致 性 。 

Megastore 的 底层 数据 存储 依赖 BigTable, 也 就 是 基于 NoSQL 实现 的 ,但 是 和 传统 的 
NoSQL 不 同 的 是 , 它 实 现 了 类 似 RDBMS 的 数据 模型 ,同时 提供 数据 的 强 一 致 性 解决 方案 ， 
并 且 将 数据 进行 细 颗 粒度 的 分 区 (这 里 的 分 区 是 指 在 同一 个 数据 中 心 , 所 有 数据 中 心 都 有 相 
同 的 分 区 数据 ) ,然后 将 数据 更 新 在 机 房 里 进行 同步 复制 (这 个 保证 所 有 数据 中 心中 的 数据 
一 致 )。BigTable 具有 一 项 在 相同 行 / 列 中 存储 多 个 版 本 带 有 不 同时 间 戳 的 数据 。 正 是 因 
为 有 这 个 特性 ,Megastore 实现 了 多 版 本 并 发 控制 MVCC: 当 一 个 事务 的 多 个 更 新 实施 时 ， 
写 人 的 值 会 带 有 这 个 事务 的 时 间 截 。 读 操作 会 使 用 最 后 一 个 完全 生效 事务 的 时 间 戳 以 避免 
看 到 不 完整 的 数据 。 读 写 操作 不 相互 阻塞 ,并 且 读 操作 在 写 事务 进行 中 会 被 隔离 。 

完整 事务 生命 周期 包括 以 下 步骤 。 

(1) 读 : 获取 时 间 堆 和 最 后 一 个 提交 事务 的 日 志 位 置 。 

(2) 应 用 逻辑 : 从 BigTable 读 取 并 且 聚 集 写 操作 到 一 个 日 志 入 口 。 

(3) 提交 : 使 用 分 布 式 同 步 机 制 将 日 志 入 口 加 到 日 志 中 。 

(4) 生效 : 将 数据 更 新 到 BigTable 的 实体 和 索引 中 。 

(5) 清理 : 删除 不 再 需要 的 数据 。 

由 于 这 类 大 数据 的 事务 实现 依赖 于 MVCC 多 版 本 并 发 控制 和 分 区 的 复制 机 制 ,因而 大 
数据 的 事务 管理 需要 考虑 的 是 跨 分 区 的 数据 一 致 性 问题 ,以 及 事务 的 并 发 性 和 延迟 性 问题 。 


5.5 大 数据 流程 管理 


在 企业 管理 领域 ,业务 流程 管理 (BPM) 思 想 由 来 已 入 。 在 20 世纪 90 年 代 , 美 国 著名 
的 管理 学 者 .MIT 教授 Michael Hammer 在 总 结 前 人 经 验 的 基础 上 提出 的 “业务 流程 重组 ” 
和 “业务 流程 改进 ”思想 为 现代 企业 全 面 深入 进行 企业 流程 的 变革 和 管理 奠定 了 坚实 的 理论 
基础 。 

在 IT 技术 领域 ,业务 流程 管理 技术 的 内 涵 也 在 不 断 地 演变 着 ,无 论 是 侧重 于 人 工交 互 
的 工作 流 系 统 (Workflow) 厂 商 , 还 是 侧重 于 分 散 系统 之 间 整 合 的 企业 应 用 集成 CEAD) 厂 
商 , 都 认为 自己 是 业务 流程 产品 提供 商 。 后 来 Gartner 对 业务 流程 管理 产品 进行 了 全 面 的 
归纳 和 总 结 ,提出 为 了 实现 企业 端 到 端的 流程 管理 ,未 来 的 BPM 发 展 趋势 必然 是 上 述 两 类 
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企业 级 的 流程 应 用 ,就 是 现在 常 说 的 建设 企业 端 到 端 流程 , 即 从 客户 需求 端 出 发 ,到 满 
是 客户 需求 端 去 ,输入 端 是 市 场 , 输 出 端 也 是 市 场 。 要 达到 这 个 管理 目标 ,就 对 流程 厂商 提 
出 了 更 高 的 要 求 。 

首先 ,流程 产品 具备 工作 流 特性 的 同时 还 需要 具备 企业 级 集成 能 力 ,不 同 的 业务 应 用 系 
统 之 间 可 以 通过 标准 化 的 方式 进行 集成 。 为 了 降低 IT 建设 成 本 ,提高 IT 资产 效率 ,还 需 
要 具备 多 应 用 系统 共享 同一 流程 产品 的 能 力 。 并 且 , 有 的 企业 已 存在 多 个 流程 产品 ,但 并 不 
是 所 有 产品 都 具备 企业 级 流程 平台 的 要 求 , 那 么 还 需要 重新 规划 流程 平台 ,使 得 多 流程 平台 
得 以 共存 ,在 复 用 原 有 流程 产品 成 果 的 前 提 下 充分 发 挥 各 流程 产品 特性 。 还 有 就 是 如 果 企 
业 中 存在 多 个 开发 团队 ,还 需 制 定 统一 的 流程 使 用 接口 和 规范 ,降低 使 用 和 维护 成 本 。 

其 次 ,由 于 流程 产品 同时 具有 业务 含义 和 技术 实现 的 特性 ,因此 越 来 越 多 的 企业 IT 部 
门 希望 业务 人 员 能 够 深入 参与 到 流程 设计 与 开发 工作 中 ,确保 流程 建设 过 程 中 双方 理解 的 
一 致 性 ,降低 业务 部 门 与 技术 部 门 的 沟通 成 本 。 另 外 ,为 了 提升 业务 人 员 使 用 体验 ,使 得 业 
务 人 员 无 须 登 录 多 个 业务 系统 进行 流程 操作 ,还 需要 规划 统一 用 户 界 面 访问 所 有 流程 任务 。 

再 次 ,为 了 方便 业务 人 员 使 用 和 维护 人 员 维 护 流 程 ,流程 管理 平台 要 能 够 提供 统一 监管 
视图 ,将 有 业务 关联 的 多 个 流程 统一 管理 起 来 ,通过 统一 的 监管 视图 看 到 业务 流程 的 流转 
情况 。 

最 后 .企业 为 了 提升 自身 核心 竞争 力 , 持 续 改 进 流程 ,需要 能 够 建立 规范 的 流程 改进 指 
标 体系 ,并 且 通 过 流程 平台 采集 这 些 指 标 数据 ,通过 与 业界 标杆 进行 对 比 , 发 现 流 程 中 的 问 
题 ,改进 流程 。 

大 数据 时 代 的 BPM 更 具备 挑战 性 ,因为 需要 将 多 源 异 构 的 数据 进行 整合 ,同时 还 要 应 
对 大 容量 、 高 流量 、 高 性 能 要 求 的 大 数据 分 析 处 理 需 求 。 尤 其 是 在 很 多 行业 应 用 中 ,应 用 程 
序 及 应 用 逻辑 经 过 很 多 年 的 积累 ,已 经 完成 开发 ,比较 成 熟 。 因 此 面向 这 类 行业 应 用 的 大 数 
据 处 理 平台 更 多 的 是 需要 解决 海量 数据 的 存储 和 大 规模 计算 资源 及 计算 任务 的 管理 调度 问 
题 。 而 在 大 部 分 情形 下 ,行业 应 用 都 是 由 很 多 计算 流程 组 成 的 ,对 这 些 流 程 的 组 织 、 分 发 , 协 
调和 并 行 化 处 理 就 成 了 这 类 行业 大 数据 应 用 的 关键 。 

基于 Hadoop 的 生态 体系 本 身 也 提供 了 Oozie 工作 流 管 理 系统 。Oozie 工作 流 采 用 
DAG(Direct Acyclic Graph, 有 向 无 环 图 ) 来 定义 工作 流程 。 其 中 定义 了 一 组 动作 (例如 ， 
Hadoop 的 Map/Reduce 作业 、Pig 作业 、 子 工作 流 等 ), 以 及 动作 执行 的 顺序 。 图 的 描述 采 
用 的 是 hPDL( 一 种 XML 流程 定义 语言 )。 

hPDL 是 一 种 很 简洁 的 语言 ,只 会 使 用 少数 流程 控制 和 动作 节点 。 控 制 节点 会 定义 执 
行 的 流程 ,并 包含 工作 流 的 起 点 和 终点 (start、end 和 fail 节点 ) 以 及 控制 工作 流 执行 路 径 的 
机 制 (decision、fork 和 join 节点 )。 动 作 节 点 是 一 些 机 制 ,通过 它们 工作 流 会 触发 执行 计算 
或 者 处 理 任务 。 

Oozie 是 比较 高 层 (作业 层面 ) 的 流程 管理 , 它 只 是 提供 了 一 种 多 类 型 作业 (比如 MR 程 
序 、Hive、Pig 等 ) 依 赖 关 系 表 达 方 式 , 并 按照 这 种 依赖 关系 提交 这 些 作 业 。Tez 是 Apache 
最 新 的 支持 DAG 作业 的 开源 计算 框架 , 它 可 以 将 多 个 有 依赖 的 作业 转换 为 一 个 作业 从 而 
大 幅 提 升 DAG 作业 的 性 能 。Tez 在 更 底层 提供 了 DAG 编程 接口 .用 户 编写 程序 时 直接 采 
用 这 些 接口 进行 程序 设计 ,这 种 更 底层 的 编程 方式 会 带 来 更 高 的 效率 。 
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5.6 大 数据 易 用 性 管理 


从 数据 集成 到 数据 分 析 ,直到 最 后 的 数据 解释 , 易 用 性 应 当 贯 穿 整个 大 数据 的 流程 。 易 
用 性 的 挑战 突出 体现 在 两 个 方面 : 首先 大 数据 时 代 的 数据 大 ,分 析 更 复杂 ,得 到 的 结果 形式 
更 加 的 多 样 化 。 其 复杂 程度 已 远 远 超出 传统 的 关系 数据 库 。 其 次 大 数据 已 广泛 渗透 到 人 们 
生活 的 各 个 方面 ,很 多 行业 都 开始 有 了 大 数据 分 析 的 需求 。 但 是 这 些 行 业 的 绝 大 部 分 从 业 
者 都 不 是 数据 分 析 的 专家 ,在 复杂 的 大 数据 工具 面前 ,他 们 只 是 初级 的 使 用 者 。 复 杂 的 分 析 
过 程 和 难以 理解 的 分 析 结 果 限 制 了 他 们 从 大 数据 中 获取 知识 的 能 力 。 这 两 个 原因 导致 易 用 
性 成 为 大 数据 时 代 软 件 工 具 设 计 的 一 个 巨大 挑战 。 关 于 大 数据 易 用 性 的 研究 仍 处 于 一 个 起 
步 阶段 。 从 设计 学 的 角度 来 看 易 用 性 表现 为 易 见 .易学 和 易 用 。 要 想 达 到 易 用 性 ,需要 关注 
以 下 三 个 基本 原则 。 

(1) 可 视 化 原则 (Visibility) 。 可 视 性 要 求 用 户 在 见 到 产品 时 就 能 够 大 致 了 解 其 初步 的 
使 用 方法 ,最 终 的 结果 也 要 能 够 清晰 地 展现 出 来 。 未 来 如 何 实现 更 多 大 数据 处 理 方法 和 工 
具 的 简易 化 和 自动 化 将 是 一 个 很 大 的 挑战 。 除 了 功能 设计 之 外 ,最 终结 果 的 展示 也 要 充分 
体现 可 视 化 的 原则 。 

(2) 匹配 原则 (Mapping)。 人 的 认 知 中 会 利用 现 有 的 经 验 来 考虑 新 的 工具 的 使 用 。 璧 
如 一 提 到 数据 库 ,. 了 解 的 人 都 会 想到 使 用 SQL 来 执行 数据 查询 。 在 新 工具 的 设计 过 程 中 尽 
可 能 将 人 们 已 有 的 经 验 知识 考虑 进去 ,会 使 得 新 工具 非常 便于 使 用 ,这 就 是 所 谓 的 匹配 原 
则 。 如 何 将 新 的 大 数据 处 理 技术 和 人 们 已 习惯 的 处 理 技 术 和 方法 进行 匹配 将 是 未 来 大 数据 
易 用 性 的 一 个 巨大 挑战 。 这 方面 现在 已 有 了 些 初 步 的 研究 工作 。 针 对 MapReduce 技术 缺 
乏 类 似 SQL 标准 语言 的 弱点 ,研究 人 员 开 发 出 更 高 层 的 语言 和 系统 如 Hive, Pig 就 是 一 个 
典型 的 例子 。 

(3) 反馈 原则 (Feedback) 。 带 有 反馈 的 设计 使 得 人 们 能 够 随时 掌握 自己 的 操作 进程 。 
进度 条 就 是 一 个 体现 反馈 原则 的 典 例子 。 大 数据 领域 关于 这 方面 的 工作 较 少 ,大 数据 时 代 
很 多 工具 其 内 部 结构 复杂 ,对 于 普通 用 户 而 言 这 些 工 具 近 似 于 黑 盒 子 , 调 试 过 程 复杂 ,缺少 
反馈 性 。 如 果 未 来 能 够 在 大 数据 的 处 理 中 大 范围 地 引入 人 机 交互 技术 ,使 得 人 们 能 够 较 完 
整地 参与 整个 分 析 过 程 ,会 有 效 地 提高 用 户 的 反馈 感 , 在 很 大 程度 上 提高 易 用 性 。 

满足 三 个 基本 原则 的 设计 就 能 够 达到 良好 的 易 用 性 。 从 技术 层面 来 看 ,可 视 化 、 人 机 交 
互 以 及 数据 起 源 技术 都 可 以 有 效 地 提升 易 用 性 。 而 在 这 些 技术 的 背后 ,元 数据 管理 的 问题 
是 需要 我 们 特别 关注 的 一 个 问题 。 元 数据 是 关于 数据 的 数据 ,数据 之 间 的 关联 关系 以 及 数 
据 本 身 的 一 些 属性 大 都 是 靠 元 数据 来 表示 的 。 可 视 化 技术 离 不 开元 数据 的 支持 ,因为 如 果 
无 法 准确 地 表征 出 数据 之 间 的 关系 ,就 无 法 对 数据 进行 可 视 化 的 展示 。 


5.7 数据 的 安全 管理 


安全 和 隐私 是 云 计 算 和 大 数据 时 代 所 面临 的 最 为 严峻 的 挑战 ! 根据 IDC 的 调查 ,安全 
和 隐私 是 用 户 首选 关注 的 问题 ,政府 和 企业 对 安全 问题 尤其 重视 ,全 球 51% 的 首席 信息 官 
认为 安全 问题 是 部 署 云 计算 时 最 大 的 顾虑 。 从 用 户 隐私 角度 来 说 ,当前 无 论 线 上 线 下 ,用 户 
的 数据 都 收集 和 记录 ,被 这 些 信 息 可 能 已 经 详细 到 令 人 很 不 舒服 的 程度 。 如 果 信息 泄漏 或 
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被 滥用 ,就 会 直接 侵犯 到 用 户 的 隐私 ,对 用 户 造成 恶劣 的 影响 ,其 至 带 来 生命 财产 的 损失 。 

为 了 进一步 明确 和 加 强 信息 安全 管理 的 规范 性 ,可 以 通过 制定 并 执行 数据 安全 政策 、 策 
略 和 措施 ,为 企业 的 数据 和 信息 提供 行 之 有 效 的 认证 ,授权 ,访问 和 审计 ,同时 还 需要 深化 数 
据 安 全 的 技术 防护 措施 。 另 外 还 需 制定 敏感 数据 访问 和 隐私 信息 保护 的 管理 措施 和 技术 防 
护 措施 。 

数据 安全 主要 内 容 包括 以 下 几 个 方面 。 

(1) 数据 权限 控制 ,对 用 户 的 数据 访问 权限 进行 细 粒 度 的 控制 管理 。 

(2) 客户 的 隐私 保护 ,采用 加 密 等 技术 手段 对 涉及 的 隐私 信息 进行 防护 。 

(3) 隐私 信息 配置 ,提供 隐私 数据 的 配置 服务 ,为 隐私 数据 的 转化 服务 提供 识别 依据 。 

(4) 隐私 信息 转化 ,为 数据 治理 相关 环节 提供 隐私 信息 的 去 隐私 化 或 还 原 服务 。 

(5) 日 志 记 录 服 务 , 对 数据 治理 各 环节 所 产生 的 日 志 记 录 进 行 收集 和 整理 。 

(6) 应 用 权限 控制 ,为 用 户 的 应 用 功能 访问 权限 的 控制 管理 提供 服务 。 

数据 安全 关注 数据 治理 过 程 中 与 数据 相关 的 安全 保障 技术 及 相应 的 管理 办 法 ,包括 : 
数据 权限 控制 ,数据 去 隐私 化 \ 数 据 加 解密 、 数 据 的 访问 记录 等 。 数 据 安全 为 数据 治理 各 环 
节 提 供 安全 保障 机 制 及 技术 手段 ,重点 关注 数据 治理 过 程 中 数据 平台 访问 策略 及 数据 资产 
环节 的 安全 保障 。 具 体 的 保障 环节 如 下 。 

(1) 数据 安全 对 数据 平台 的 访问 账号 、 功 能 权限 进行 安全 保护 ,例如 : 

@ 数据 平台 的 账号 管理 ; 

@ 数据 平台 敏感 行为 的 控制 管理 ; 

@ 数据 平台 数据 去 隐私 化 。 

(2) 数据 安全 对 资产 管理 涉及 的 数据 及 业务 过 程 行为 进行 数据 安全 保护 ,并 实现 相关 
的 安全 防护 工作 ,例如 : 

@ 数据 资产 的 增加 删除、 变更 过 程 的 数据 权限 控制 工作 ; 

@ 数据 使 用 过 程 中 的 防 泄漏 保护 工作 ; 

@ 数据 资产 变更 过 程 的 记录 及 追踪 ; 

@ 数据 粒度 的 权限 控制 管理 ; 

@ 相关 系统 应 用 数据 访问 行为 的 日 志 记 录 等 工作 。 

数据 安全 需求 可 以 分 为 以 下 几 个 层面 。 

(1) 数据 存储 。 

Q@ 存储 设备 访问 控制 : 身份 识别 .权限 控制 .访问 控制 、 操 作 审 计 。 

@ 数据 安全 防护 : 数据 脱 敏 .数据 加 密 。 

(2) 数据 处 理 。 

数据 安全 防护 : 业务 逻辑 安全 。 

(3) 数据 封装 。 

数据 安全 防护 : 数据 最 小 化 .数据 脱 敏 .数据 文件 加 水 印 。 

(4) 数据 使 用 。 

@ 接 入 安全 控制 : 身份 识别 .权限 控制 .访问 控制 .操作 日 志 。 

@ 数据 安全 防护 : 数据 脱 敏 .数据 加 密 、 传 输 通道 加 密 。 

在 数据 安全 领域 ,还 有 一 种 面向 数据 的 安全 体系 结构 (Data-Oriented Security 
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Architecture,DOSA), 是 面向 数据 和 以 数据 为 核心 的 关于 数据 的 安全 体系 结构 ,构建 起 从 
数据 保护 到 授权 应 用 的 整套 机 制 。 

在 大 数据 时 代 , 由 于 数据 被 集中 存放 在 企业 或 公共 的 数据 中 心里 ,使 信息 安全 问题 愈 发 
突出 ,急需 要 有 一 种 新 的 安全 体系 结构 来 应 对 这 些 问题 。 而 现 有 的 信息 安全 体系 是 建立 在 
相对 封闭 的 网 络 环境 下 的 ,通过 各 种 方式 来 保证 这 个 封闭 环境 是 安全 的 或 可 信 的 。 因 此 , 目 
前 的 信息 安全 ,更 加 强调 的 是 网 络 安全 、 系 统 安全 ,环境 安全 和 应 用 安全 。 但 是 在 这 个 相对 
“安全 ”的 内 部 环境 里 ,大 多 数 数据 却 是 处 于 “裸露 ”状态 的 。 一 旦 有 不 速 之 客 通过 各 种 漏洞 
或 非法 获得 权限 进入 这 个 环境 ,“ 裸 露 ”的 数据 就 面临 着 极 大 的 危险 。 

一 些 数据 中 心 所 涉及 的 数据 安全 ,多 是 指 利 用 数据 备份 数据 灾 备 等 技术 来 保障 数据 不 
丢失 ,但 仍 存 在 着 越权 访问 等 危险 行为 ,造成 数据 和 信息 泄漏 的 隐患 。 

在 大 数据 时 代 我 们 更 多 地 面临 着 开放 环境 下 的 信息 安全 问题 。 随 着 信息 系统 或 应 用 体 
系 所 面临 的 环境 更 为 开放 ,数据 共享 和 交换 的 需求 越 来 越 多 ,对 数据 和 信息 安全 的 要 求 也 就 
更 高 。 原 来 按照 相对 封闭 环境 下 的 安全 举措 将 遇 到 极 大 的 困难 ,不 能 满足 新 时 代 信息 安全 
的 要 求 ,也 给 信息 安全 体系 结构 等 带 来 了 严峻 的 挑战 。 大 数据 时 代 信 息 安 全 的 核心 就 是 数 
据 的 安全 ,因此 开展 面向 数据 和 以 数据 为 核心 的 数据 安全 体系 研究 是 十 分 必要 的 。 

面向 数据 的 安全 体系 结构 DOSA 建立 在 云 计算 基础 之 上 ,以 数据 "天 生 加 密 、 授 权 使 
用 ”为 原则 ,对 数据 的 属性 进行 注册 和 管理 ,包括 数据 的 安全 属性 、 身 份 属性 、 时 间 属 性 、 空 间 
属性 等 ,明确 数据 拥有 者 身份 ,包括 数据 的 主人 (数据 权 人 ) 朋友 (被 授权 人 ) 陌生 人 (未 授 
权 人 ) 和 敌人 (不 授权 人 )。 数 据 具 有 自 保护 功能 ,以 加 密 方式 呈现 ,具有 不 同 的 加 密级 别 和 
深度 。 数 据 的 使 用 要 经 过 授权 。 数 据 是 独立 于 系统 的 ,数据 是 应 用 的 基础 ,不 依赖 于 特定 的 
硬件 环境 和 软件 环境 ,同一 数据 可 以 支撑 不 同 的 应 用 。 

面向 数据 的 安全 体系 结构 (DOSA) 旨 在 从 架构 角度 对 未 来 的 数据 安全 体系 进行 全 方位 
设计 ,包括 数据 的 管理 和 应 用 等 。 主 要 内 容 如 下 。 

1. 体系 结构 机 制 及 组 成 

包括 : 开放 环境 下 数据 安全 的 基本 理论 ; 面向 数据 的 安全 体系 结构 的 基本 原则 ; 面向 
数据 的 安全 体系 结构 基本 构成 等 。 

2. 数据 属性 

包括 : 数据 固有 安全 属性 ; 数据 安全 信息 规范 ; 数据 状态 定义 及 转换 机 制 等 。 

3， 数据 权限 

包括 : 数据 访问 控制 权限 及 管理 机 制 ; 数据 合法 性 鉴定 ; 数据 权限 中 心 的 作用 和 运作 
机 制 等 。 

4. 数据 注册 

包括 : 数据 属性 及 数据 安全 信息 的 注册 ; 数据 注册 方法 ; 动态 数据 自动 注册 机 制 ; 数 
据 注册 信息 与 数据 授权 管理 的 关联 机 制 ; 数据 使 用 记录 及 其 溯源 机 制 等 。 

5. 数据 授权 

包括 : 用 户 认证 机 制 及 证 书 授权 (Certificate Authority, CA) 技 术 ; 用 户 身份 与 数据 授 
权 权 限 管理 ; 数据 授权 机 制 及 与 公共 密 钥 基础 设施 (Public Key Infrastructure,PKI) 关 系 ; 
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计 账 机 制 ; 多 级 授权 及 认证 机 制 ; 单个 数据 与 批量 数据 或 大 数据 量 授权 机 制 等 。 

6. 数据 加 解密 

包括 : 密 钥 体系 ; 动态 数据 自动 加 密 机 制 ; 数据 授权 自动 解密 机 制 ; 数据 透明 加 解密 
策略 和 算法 ; 加 解密 效率 与 安全 性 及 授权 过 程 的 妥协 关系 等 。 

7. 数据 应 用 环境 

包括 : 传统 数据 传输 加 密 技术 适应 性 ; 应 用 环境 安全 保障 ; 数据 非法 使 用 识别 及 数字 
水 印 技术 ; 数据 权 人 利益 保障 技术 支持 ; 数据 权 人 权利 和 知识 产权 相关 问题 等 。 

DOSA 在 组 成 结构 方面 包括 数据 权限 中 心 (Data Authority Center,DAC) ,数据 注册 中 
心 (Data Register Center,DRC) ,数据 异常 控制 中 心 (Data Exception Control Center,DEC) 
和 数据 应 用 单元 (Data Application Units,DAUs) ,来 实现 数据 的 统一 登记 ,保护 ,授权 管理 
和 为 应 用 提供 服务 。 

数据 权限 中 心 (DAC) ,是 DOSA 的 核心 部 件 , 对 数据 的 安全 存储 ,传输 及 应 用 授权 进行 
管理 。 对 数据 实行 “天 生 加 密 、 授 权 使 用 ”的 机 制 ,通过 对 数据 的 加 解密 和 授权 管理 ,使 得 数 
据 在 生成 .存储 和 传输 时 是 不 可 访问 和 使 用 的 ,而 经 过 授权 的 用 户 在 访问 数据 或 通过 应 用 使 
用 数据 时 ,是 解密 和 透明 的 , 即 授权 用 户 感 觉 不 到 数据 的 加 密 和 解密 过 程 。 为 便于 管理 ,将 
数据 分 成 存储 和 传输 时 保持 加 密 的 “数据 态 ” 和 在 应 用 中 授权 使 用 时 解密 的 “应 用 态 ”。 数 据 
只 有 在 “应 用 态 ”" 时 是 处 于 解密 状态 ,一 旦 完成 应 用 或 离开 了 应 用 环境 ,或 是 由 应 用 产生 了 新 
的 数据 ,数据 应 立即 变 ” 为 加 密 的 “数据 态 ”, 充 分 保证 数据 的 安全 及 使 用 的 授权 。“ 数 据 态 ” 
的 数据 , 既 适 合 于 封闭 环境 ,也 适合 于 开放 环境 ,而 “应 用 态 ” 的 数据 , 仅 适 合 于 “封闭 ”环境 。 
数据 的 访问 和 应 用 是 基于 授权 的 ,特定 的 访问 者 ,特定 的 场合 (环境 ) ,特定 的 时 间 ( 时 段 ), 数 
据 的 使 用 和 用 户 适 合 于 网 络 安全 的 授权 .认证 和 计 账 (Authorization, Authentication， 
Accounting,AAA) 机 制 。 

数据 注册 中 心 (DRC) ,是 DOSA 的 关键 部 件 , 注 册 有 关 数 据 的 各 种 信息 ,包括 安全 属性 
信息 ,通过 它 来 构建 逻辑 的 数据 资源 池 ,并 管理 数据 和 提供 数据 服务 。 

数据 异常 控制 中 心 (DEC) ,是 DOSA 的 重要 部 件 , 对 数据 资源 进行 自 适应 管理 ,保证 数 
据 的 唯一 性 和 一 致 性 。 

数据 应 用 单元 (DAUs) ,是 DOSA 的 关键 部 件 ,关联 应 用 对 数据 的 访问 ,对 各 种 应 用 提 
供 支 持 。 

DOSA 作为 一 种 数据 安全 理念 和 机 制 ,就 是 要 保证 数据 能 够 在 数据 和 应 用 两 个 层面 中 
都 能 做 到 安全 、 可 靠 以 及 便于 管理 和 使 用 , 既 可 以 在 传统 的 封闭 环境 下 应 用 ,增强 数据 的 安 
全 保护 ,又 可 以 在 开放 环境 下 保护 数据 的 安全 和 不 被 越权 访问 。 

目前 有 关 信 息 安 全 数据 安全 的 理论 和 方法 体系 ,有 关 网 络 授 权 、 认 证 和 计 账 的 AAA 
技术 ,有 关 CA 技术 、PKI 技术 、 密 钥 体 系 、 加 解密 技术 ,有 关 可 信和 技术 ,以 及 不 断 发 展 的 网 络 
空间 安全 技术 、 系 统 安全 技术 、 应 用 环境 安全 技术 等 ,都 能 在 DOSA 框架 下 使 用 ,但 需要 进 
一 步 从 面向 数据 和 以 数据 为 核心 的 角度 ,进行 重新 梳理 ,从 数据 安全 的 理念 、 理 论 .方法 和 受 
保护 数据 的 应 用 机 制 等 方面 ,进行 适应 性 和 深入 的 研究 ,为 进一步 提高 信息 安全 提供 保障 。 

关于 数据 隐私 保护 ,其 技术 效果 可 用 “披露 风险 ”来 度量 。 披 露 风险 表示 攻击 者 根据 所 
发 布 的 数据 和 其 他 相关 的 背景 知识 ,能 够 披露 隐私 的 概率 。 那 么 隐私 保护 的 目的 就 是 尽 可 

















145 


[人 大 数据 -元 所 管理 与 才 据 x 程 
能 降低 披露 风险 。 隐 私 保护 技术 大 致 可 以 分 为 以 下 几 类 。 

(1) 基于 数据 失真 (Distortion) 的 技术 。 数 据 失 真 技术 简单 来 说 就 是 对 原始 数据 “ 摊 沙 
子 ”, 让 敏感 的 数据 不 容易 被 识别 出 来 ,但 沙子 也 不 能 挫 得 太 多 ,否则 就 会 改变 数据 的 性 质 。 
攻击 者 通过 发 布 的 失真 数据 不 能 还 原 出 真实 的 原始 数据 ,但 同时 失真 后 的 数据 仍然 保持 某 
些 性 质 不 变 。 比 如 对 原始 数据 加 入 随机 噪声 ,可 以 实现 对 真实 数据 的 隐藏 。 当 前 ,基于 数据 
失真 的 隐私 保护 技术 包括 随机 化 .阻塞 (Blocking) 交换、 凝聚 (Condensation) 等 。 例 如 , 随 
机 化 中 的 随机 扰动 技术 可 以 在 不 暴露 原始 数据 的 情况 下 进行 多 种 数据 挖掘 操作 。 由 于 通过 
扰动 数据 重 构 后 的 数据 分 布 几乎 等 同 于 原始 数据 的 分 布 ,因此 利用 重 构 数据 的 分 布 进行 决 
策 树 分 类 器 训练 后 ,得 到 的 决策 树 能 很 好 地 对 数据 进行 分 类 。 而 在 关联 规则 挖掘 中 ,可 以 在 
原始 数据 中 加 入 很 多 虚假 的 购物 信息 ,以 保护 用 户 的 购物 隐私 ,但 同时 又 不 影响 最 终 的 关联 
分 析 结 果 。 

(2) 基于 数据 加 密 的 技术 。 在 分 布 式 环境 下 实现 隐私 保护 要 解决 的 首要 问题 是 通信 的 
安全 性 ,而 加 密 技术 正好 满足 了 这 一 需求 ,因此 基于 数据 加 密 的 隐私 保护 技术 多 用 于 分 布 式 
应 用 中 ,如 分 布 式 数据 挖掘 、 分 布 式 安全 查询 、 几 何 计算 、 科 学 计算 等 。 在 分 布 式 环境 下 , 具 
体 应 用 通常 会 依赖 于 数据 的 存储 模式 和 站 点 (Site) 的 可 信和 度 及 其 行为 。 

对 数据 加 密 可 以 起 到 有 效 地 保护 数据 的 作用 ,但 就 像 把 东西 锁 在 箱子 里 ,别人 拿 不 到 ， 
自己 要 用 也 很 不 方便 。 如 果 在 加 密 的 同时 还 想 从 加 密 之 后 的 数据 中 获取 有 效 的 信息 ,应 该 
怎么 办 ? 最 近 在 “隐私 同 态 ” 或 “ 同 态 加 密 ? 领 域 取 得 的 突破 可 以 解决 这 一 问题 。 同 态 加 密 是 
一 种 加 密 形 式 , 它 允许 人 们 对 密 文 进行 特定 的 代数 运算 ,得 到 的 仍然 是 加 密 的 结果 ,与 对 明 
文 进行 运算 后 加 密 一 样 。 这 项 技术 使 得 人 们 可 以 在 加 密 的 数据 中 进行 诸如 检索 、 比 较 等 操 
作 , 得 出 正确 的 结果 ,而 在 整个 处 理 过 程 中 无 须 对 数据 进行 解密 。 比 如 ,医疗 机 构 可 以 把 病 
人 的 医疗 记录 数据 加 密 后 发 给 计算 服务 提供 商 ,服务 商 不 用 对 数据 解密 就 可 以 对 数据 进行 
处 理 ,处 理 完 的 结果 仍 以 加 密 形 式 发 送 给 客户 ,客户 在 自己 的 系统 上 才能 进行 解密 ,看 到 真 
实 的 结果 。 但 目前 这 种 技术 还 处 在 初始 阶段 ,所 支持 的 计算 方式 非常 有 限 , 同 时 处 理 的 时 间 
开销 也 比较 大 。 

(3) 基于 限制 发 布 的 技术 。 限 制 发 布 也 就 是 有 选择 地 发 布 原始 数据 、 不 发 布 或 发 布 精 
度 较 低 的 敏感 数据 ,实现 隐私 保护 。 这 类 技术 的 研究 主要 集中 于 “数据 匿名 化 ”, 就 是 在 隐私 
披露 风险 和 数据 精度 间 进 行 折 中 ,有 选择 地 发 布 敏感 数据 或 可 能 披露 敏感 数据 的 信息 ,但 保 
证 对 敏感 数据 及 隐私 的 披露 风险 在 可 容忍 范围 内 。 数 据 匿名 化 研究 主要 集中 在 两 个 方面 
一 是 研究 设计 更 好 的 匿名 化 原则 ,使 遵循 此 原则 发 布 的 数据 既 能 很 好 地 保护 隐私 ,又 具有 较 
大 的 利用 价值 ; 二 是 针对 特定 匿名 化 原则 设计 更 "高效 "的 匿名 化 算法 。 数 据 匿名 化 一 般 采 
用 两 种 基本 操作 : 一 是 抑制 ,抑制 某 数据 项 , 亦 即 不 发 布 该 数据 项 ,比如 隐私 数据 中 有 的 可 
以 显 性 标识 一 个 人 的 姓名 、 身 份 证 号 等 信息 ; 二 是 泛 化 . 泛 化 是 对 数据 进行 更 概括 .抽象 的 
描述 。 壁 如 ,将 年 龄 3 泛 化 为 L0,5], 把 详细 住址 泛 化 为 某 个 城区 或 乡镇 等 ,可 以 降低 信息 的 
精确 性 ,起 到 一 定 的 隐私 保护 作用 。 

另外 ,从 隐私 保护 的 管理 保障 角度 来 说 ,可 以 采取 三 权 分 立 的 管控 制度 。 三 权 是 指 : 数 
据 管理 权限 、 隐 私 数据 安全 管理 权限 以 及 审计 权限 。 三 个 权限 分 别 掌握 在 不 同 的 管理 员 手 
上 ,三 个 管理 角色 的 权限 相互 独立 、 互 不 重 倒 ,不 允许 越权 , 且 相 互 制 衡 。 

数据 管理 员 角 色 : 数据 管理 员 主 要 负责 数据 平台 的 维护 和 管理 ,数据 库 设计 方案 及 规 
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划 。 拥 有 数据 最 高 的 操作 权限 。 经 过 隐私 保护 实施 后 .数据库 中 将 不 包含 任何 隐私 信息 。 
该 角色 能 够 获取 所 有 的 数据 但 无 法 读 懂 隐 私信 息 ,他 无 法 获取 隐私 信息 保护 的 策略 和 密 钥 
信息 。 

安全 管理 员 角 色 : 是 隐私 数据 保护 专用 管理 角色 ,主要 负责 获取 隐私 信息 属性 ,管理 和 
配置 去 隐私 处 理 的 策略 和 密 钥 信息 ,制定 版 本 更 新 计划 和 历史 版 本 归档 工作 。 该 角色 掌握 
所 有 去 隐私 处 理 使 用 的 策略 和 密 钥 ,但 没有 访问 任何 主 数据 库 的 权限 ,也 无 法 获取 隐私 
信息 。 

审计 专员 角色 : 属于 专门 的 事后 审计 管理 角色 ,审计 专员 有 权限 对 数据 管理 员 和 安全 
管理 员 的 任何 操作 进行 审计 。 一 旦 发 现 违规 的 行为 可 以 及 时 通告 和 升级 处 理 。 

建立 三 权 分 立 管控 制度 的 目的 就 是 要 建立 权力 制衡 的 机 制 , 进 一 步 保 证 隐私 信息 的 安 
全 。 在 实施 过 程 中 ,必须 要 明确 三 个 角色 权限 由 不 同 的 人 员 担 任 , 三 个 角色 的 权限 不 能 有 任 
何 的 设置 重 释 , 需 配 套 建 立 相 应 版 本 更 新 数据 需求 .后 台 运 维 \ 日 志 审 计 管 理 流程 。 

从 全 局 来 说 ,大 数据 管理 与 治理 的 目的 是 为 了 安全 有 效 地 管理 数据 ,建立 数据 全 流程 的 
管理 组 织 架 构 、 管 理 措施 .管理 对 象 .标准 、 策 略 .技术 方法 、 安 全 及 隐私 机 制 等 , 它 是 深入 利 
用 数据 ,发 掘 数据 价值 的 基础 。 随 着 整个 社会 对 数据 价值 的 认识 不 断 深化 ,大 数据 管理 和 治 
理 的 重要 性 也 必 将 被 政府 ,企业 及 行业 提升 到 前 所 未 有 的 高 度 ,其 管理 与 实践 也 会 随 着 大 数 
据 的 产业 发 展 而 更 新 和 进步 。 
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6.1 大 数据 的 爆发 


从 20 世纪 80 年 代 到 20 世纪 90 年 代 , 就 已 经 有 人 提出 数据 爆炸 的 概念 , 那 为 什么 近 些 
年 大 数据 才 迅 猛 爆 发 呢 ? 有 4 个 方面 的 原因 。 首 先 ,是 各 种 各 样 数据 源 的 出 现 和 爆发 。 国 
内 外 大 型 互联 网 公司 如 Google、Facebook、Twitter、 腾 讯 、 百 度 、 阿 里 巴巴 等 每 分 每 秒 都 在 
产生 数据 。 就 拿 微 信和 来 举例 ,全 球 有 7 亿 多 用 户 , 每 个 用 户 至 少 都 在 10 个 群 里 ,如 果 每 天 早 
上 一 个 群 里 发 出 10 条 早 安 . 早 上 好 的 信息 ,那么 一 个 早上 就 会 产生 700 亿 条 信息 ,更 不 用 提 
里 面 产生 的 各 种 语音 和 视频 信息 了 。 那 么 腾讯 的 数据 中 心 需要 实时 处 理 这 些 数 以 亿 计 的 信 
息 , 其 后 台 有 数 百 万 的 服务 器 ,腾讯 在 内 蒙古 等 地 新 建 的 数据 中 心服 务 器 的 数量 在 20 万 台 
以 上 。 另 一 方面 , 物 联 网 传感器 、 智 能 设备 ,移动 终端 的 数量 也 在 呈 指 数 级 增长 ,全球 的 传 感 
器 、 移 动 终端 数目 都 多 达 几 百 亿 ,智能 电表 也 有 上 亿 , 这 些 设备 也 在 时 时 刻 刻 产生 和 传送 着 
数据 。 另 外 一 个 数据 源 是 科学 仪器 和 医疗 仪器 等 。 欧 洲 核子 物理 中 心 牵头 建造 的 大 型 强 子 
对 撞 机 LHC 一 年 就 产生 15PB 的 数据 ,通过 对 其 中 的 数据 进行 分 析 , 科 学 家 们 成 功 地 发 现 
了 上 帝 粒 子 Higgs Boson。 建 造 在 美国 新 墨西哥 州 的 大 型 天 文 望远镜 , 旨 在 对 地 球 上 空 四 
分 之 一 的 太空 进行 拍照 扫描 ,记录 几 十 亿 星体 的 相关 数据 。 新 型 的 医疗 仪器 如 高 分 辩 率 的 
CT ,核磁 共振 仪 .基于 直线 加 速 器 的 癌症 治疗 设备 等 ,基于 数 百 万 病人 所 产生 的 数据 也 很 庞 
大 。 业 界 的 一 些 概念 如 数据 爆炸 、 数 据 暴雨 ,数据 海啸 ,都 是 对 这 种 数据 迅猛 增长 的 趋势 的 
叫 法 。 这 些 不 同 种 类 的 数据 源 所 产生 的 海量 数据 ,正在 将 我 们 淹没 ,我 们 缺乏 有 效 的 存储 、 
处 理 这 些 数 据 的 手段 ,对 数据 巨大 潜能 的 利用 才刚 刚 开 始 。 

微软 公司 有 两 位 全 球 知名 的 科学 家 ,一 位 是 微软 研究 院 副 总 裁 Tony Hey, 他 主要 负责 
微软 研究 院 与 全 球 高 校 的 合作 ,以 及 微软 的 交叉 学 科 以 及 科学 计算 的 研究 , 另 一 位 是 图 灵 奖 
获得 者 Jim Gray。 他 们 对 大 数据 及 数据 科学 的 发 展 做 出 了 巨大 贡献 。Tony Hey 指出 当前 
在 数据 暴雨 时 代 , 虽 然 数据 蕴藏 着 巨大 价值 ,但 由 于 数据 管理 以 及 数据 技术 的 局 限 ,政府 、 企 
业 以 及 社会 对 数据 的 利用 率 还 不 到 5% ,其 余 的 数据 ,全 都 像 雨水 一 样 , 通 过 下 水 道 流 走 了 。 
Jim Gray 由 于 发 明了 数据 库 的 "事务 机制, 黄 定 了 全 球 金融 交易 的 基石 ,获得 了 计算 机 界 
的 最 高 荣誉 “图 灵 奖 "一 一 相当 于 其 他 行业 的 诺 贝 尔 奖 。 这 两 位 科学 家 早 在 2009 年 ,就 提出 
数据 密集 科学 ,是 科学 的 第 四 象限 ,把 数据 科学 和 之 前 的 实验 科学 、 理 论 科学 、 计 算 科学 分 离 
出 来 ,形成 一 门 新 的 独立 的 学 科 , 从 而 带动 了 数据 科学 的 研究 和 发 展 。 

大 数据 爆发 的 第 二 个 原因 ,是 由 于 数据 的 种 类 、 格 式 多 种 多 样 , 数 据 分 析 的 复杂 度 越 来 
越 高 。 我 们 举 一 个 癌症 治疗 里 靶 向 药物 的 例子 (如 图 6-1 所 示 )。 当 今 癌症 治疗 里 最 为 先进 





es 
的 方法 是 使 用 靶 向 药物 ,它们 能 精准 定位 癌 细 胞 .与 癌 细 胞 相 结合 ,并 摧毁 或 抑制 癌 细 胞 的 
生长 。 然 而 为 了 找到 有 效 的 靶 向 药物 ,需要 把 癌 细 胞 和 数 百 万 蛋白 质 进行 比 对 ,计算 的 任务 
数 多 达 400 多 万 个 ,计算 量 在 单个 CPU 上 需要 50 年 。 也 就 是 说 ,来 了 一 个 病人 ,我 们 告诉 
病人 要 等 待 50 年 才能 把 药物 计算 出 来 .这 是 不 可 接受 的 。 
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大 数据 爆发 的 第 三 个 原因 ,是 数据 价值 的 凸显 。 以 前 ,数据 只 是 被 简单 地 用 来 进行 一 些 
统计 分 析 , 甚 至 是 放 在 文件 柜 里 接 灰 : 很 多 银行 .医院 ,商家 累积 了 几 十 年 的 数据 ,但 都 没有 
发 挥 它们 应 有 的 价值 。 当 今 ,大 数据 被 誉 为 新 时 代 的 黄金 和 石油 ,李克强 总 理 称 之 为 “钻石 
矿 ”。 后 面 我 们 会 看 到 ,大 数据 甚至 比 这 些 还 要 值钱 。 政 府 \ 企 业 、 社 会 和 每 个 个 人 ,都 认识 
到 了 数据 中 蕴藏 的 巨大 价值 。 从 国家 发 展 战略 上 , 它 关 乎 一 个 国家 的 全 球 战略 经 济 布局 、 国 
计 民 生 、 政 策 法规 \ 行 业 监管 等 方面 ; 从 区 域 经 济 发 展 来 看 , 它 是 制定 区 域 规 划 、 城 市 发 展 计 
划 , 把 握 先 机 ,占领 制 高 地 的 基础 ; 对 于 企业 发 展 , 它 则 是 企业 制定 市 场 策略 ,规划 发 展 和 投 
资 前 景 ,把 握 先 机 ,维持 竞争 力 的 必要 手段 ; 对 个 人 来 说 , 它 则 是 工作 就 业 、 居 家 生活 、 投 资 
理财 ` 旅 游 出 行 等 各 方面 的 好 帮手 。 正 是 由 于 大 数据 的 这 些 核 心 价值 ,需要 激活 和 发 掘 , 引 
发 了 大 数据 的 崛起 。 

大 数据 爆发 的 最 后 一 个 原因 ,也 是 最 根本 的 原因 ,是 现 有 信息 系统 已 经 面临 严重 的 局 
限 , 完 全 不 能 处 理 数据 的 迅猛 增长 和 对 数据 价值 挖掘 的 渴求 的 矛盾 冲突 ,从 而 全 面 引 发 了 大 
数据 问题 在 各 行 各 业 的 爆发 。 传 统 信息 系统 的 局 限 有 以 下 几 方面 。 

(1) 速度 方面 的 问题 大 数据 从 存储 到 处 理 到 展示 都 需要 快速 实时 , 现 有 系统 面临 
瓶颈 。 
(2) 种 类 和 架构 问题 : 传统 系统 更 擅长 处 理 结构 化 数据 ,而 不 是 多 源 复杂 格式 数据 的 
存储 和 处 理 。 

(3) 体 量 及 扩展 性 问题 : 传统 集中 式 处 理 方式 无 法 应 对 海量 的 数据 ,需要 分 布 式 可 扩 
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展 的 架构 和 系统 。 

(4) 成 本 问题 : 新 型 的 分 布 式 架构 对 比 传统 的 大 型 计算 机 、 小 型 计算 机 的 软 / 硬 件 及 运 
营 维 护 成 本 都 大 大 节约 。 

(5) 价值 挖掘 问题 : 如 何 从 数据 中 挖掘 出 价值 ,并 且 有 好 的 投入 产 出 。 

(6) 安全 及 隐私 问题 : 在 充分 发 挥 数据 价值 的 同时 如 何 保障 数据 的 安全 和 隐私 。 

(7) 互 连 互通 和 数据 共享 问题 : 打通 不 同 机 构 、 行 业 的 数据 互通 ,实现 共享 。 

既然 传统 信息 系统 面临 诸多 局 限 , 那 么 面 对 大 数据 的 挑战 ,我 们 该 如 何 应 对 ,如 何 处 理 
海量 .多 源 、 多 结构 ,高 流量 ,高 通 量 的 数据 ,并 且 有 效 地 发 掘 和 利用 其 巨大 的 价值 和 潜能 呢 ? 
这 需要 依赖 我 们 称 之 为 新 一 代 信 息 系统 的 现代 科技 。 新 一 代 信 息 系 统 有 4 大 核心 系统 ,也 
称 为 4 架 马车 , 即 : 云 计算 、 大 数据 、 物 联网 \ 移 动 互联 网 。 相 信 读 者 都 听 说 过 这 些 概 念 和 名 
词 ,但 它们 具体 的 含义 和 关系 是 怎样 的 呢 ?” 我 们 用 一 个 通俗 易 懂 的 比喻 来 解释 : 如 果 把 新 
一 代 信 息 系 统 比 作 一 个 人 的 话 ,那么 物 联网 相当 于 人 的 眼睛 、 鼻 子 、 耳 人 打 、 手 等 感官 ,可 以 感 
知 周围 的 世界 并 采集 数据 ,比如 周围 的 温度 ,湿度 ,物体 的 材质 等 ,这 也 是 为 什么 物 联 网 的 采 
集 设备 被 称 为 传感器 的 原因 之 一 ; 移动 互联 网 相当 于 神经 和 传导 系统 ,可 以 把 感官 感知 的 
数据 传达 回 大 脑 ; 云 计 算 则 相当 于 身体 和 心脏 ,为 思考 和 加 工 数据 提供 必要 的 能 量 ; 大 数 
据 则 是 新 一 代 信息 系统 最 核心 的 组 成 . 它 相 当 于 我 们 智慧 的 大 脑 ,只 有 经 过 大 脑 的 加 工 , 才 
能 把 数据 转化 为 知识 和 智慧 ,也 才能 指导 我 们 进行 决策 和 行动 。 在 我 国 , 云 计算 、 物 联网 都 
经 历 了 很 多 年 的 发 展 ,但 是 都 没有 取得 根本 性 的 突破 和 大 范围 的 应 用 ,最 主要 的 原因 是 大 数 
据 还 没有 发 展 起 来 ,而 现在 随 着 大 数据 的 兴起 ,迅速 带动 了 云 计算 及 物 联网 的 发 展 。 国 内 的 
云 计算 服务 商 每 年 都 有 成 倍 的 增长 ,而 物 联 网 又 重新 抬头 ,被 称 为 下 一 个 万 亿 级 的 市 场 ,这 
些 都 是 大 数据 技术 和 应 用 在 逐步 落地 带动 起 来 的 。 

上 面 总 结 了 4 个 方面 的 原因 ,是 大 数据 在 近年 来 迅猛 爆发 并 横扫 全 球 的 主要 原因 。 
2011 年 ,麦肯锡 在 其 发 布 的 白皮书 (大 数据 的 下 一 个 前 沿 : 创新 .竞争 和 生产 力 》 中 ,正式 提 
出 了 大 数据 的 概念 。2012 年 ,美国 奥巴马 政府 发 布 了 《大 数据 发 展 和 研究 倡议 》, 把 大 数据 
列 为 美国 的 国家 战略 ,并 拨付 两 亿美 元 专款 支持 大 数据 ,从 而 带动 了 大 数据 在 全 球 发 展 的 浪 
潮 。2016 年 3 月 ,我国 在 国家 的 “十 三 五 ?规划 中 ,也 正式 将 大 数据 列 为 国家 发 展 战略 ,大 数 
据 在 中 国 将 迎 来 高 速 发 展期 。 基 于 数据 思维 、 数 据 驱 动 的 理念 和 实践 将 是 国家 政府、 企业 、 
行业 制定 战略 .转型 升级 .保持 竞 争 力 和 创新 发 展 的 原动力 。 我 们 基于 在 医疗 ,教育 能源、 
交通 政务 等 领域 多 年 的 大 数据 实践 ,总 结 出 了 一 些 大 数据 驱动 创新 的 基本 理论 和 方法 论 ， 
以 下 逐一 阐述 。 


6.2 大 数据 创新 理论 


6.2.1 大 数据 的 宏观 性 和 微观 性 


大 数据 具备 很 多 维 的 特性 ,而 这 些 特 性 是 数据 驱动 创新 的 根本 原因 。 首 先 ,大 数据 既 具 
备 宏 观 性 (也 称 望 远 镜 特性 ) 又 有 微观 性 (也 称 显微镜 特性 ) ,这 是 清华 大 学 数据 科学 研究 院 
执行 副 院 长 韩 亦 有 总结 的 一 个 心得 和 体会 。 宏 观 性 指 的 是 大 数据 收集 的 是 全 样本 的 历史 数 
据 , 基 于 这 些 数据 ,可 以 预测 未 来 。 用 大 数据 进行 预测 ,可 以 预测 今后 的 经 济 走势 .市 场 形 
势 ,发 展 方向 等 。Google 的 FluTrend 一 一 流感 趋势 预测 ,可 以 基于 人 们 在 Google 搜索 引擎 
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上 的 搜索 关键 词 ,将 与 流感 相关 的 关键 词 关联 起 来 ,比美 国 国家 卫生 署 提 前 一 周到 半 个 月 准 
确 预 测 流感 疫情 的 爆发 。 美 国 罗 切 斯 特大 学 的 学 者 和 微软 公司 的 研究 者 一 起 合作 ,分 析 了 
从 703 个 人 和 396 辆 车 上 收集 的 超过 32 000 天 的 GPS 数据 ,他 们 从 数据 中 寻找 模式 并 计算 
一 个 人 某 个 时 间 会 在 某 个 地 方 的 概率 。 根 据 他 们 的 模型 ,能 够 预测 一 个 人 在 未 来 80 周 的 行 
踪 , 并 且 预 测 的 准确 率 达 了 80%。 也 就 是 说 ,根据 这 些 人 的 历史 出 行 记 录 ,我 们 可 以 预测 他 
们 未 来 1 年 半 中 的 所 在 的 位 置 , 这 就 是 大 数据 的 望远镜 特性 。 大 数据 的 微观 性 指 的 是 通过 
精确 掌握 企业 或 是 个 人 的 最 细微 的 细节 ,我 们 就 可 以 通过 大 数据 来 做 精准 画像 和 服务 。 美 
国 的 电 商 网 站 亚马逊 ,用 户 80% 的 再 次 购买 行为 都 是 基于 系统 的 推荐 ,这 是 因为 系统 记录 
了 用 户 的 基本 信息 以 及 他 们 每 次 的 消费 信息 ,包括 家 庭 购物 信息 ,这 样 就 可 以 准确 地 掌握 他 
们 的 行为 .兴趣 、 意 图 和 爱好 ,从 而 推测 他 们 会 喜欢 什么 样 的 商品 ,为 他 们 提供 精准 的 推荐 。 
大 数据 就 像 显 微 镜 一 样 ,观察 到 了 用 户 最 细致 的 信息 ,了 解 他 们 的 一 举 一 动 。 当 然 ,这 里 面 
也 涉及 到 用 户 的 隐私 ,因此 在 精准 服务 和 隐私 保护 两 方面 要 做 好 平衡 。 


6.2.2 大 数据 的 生产 要 素性 


大 数据 的 另 一 个 特性 是 它 的 生产 要 素性 。 大 数据 之 所 以 能 起 到 革命 性 和 颠覆 性 的 作 
用 ,最 根本 原因 就 是 大 数据 成 为 一 种 新 型 生产 要 素 。 我 们 以 前 学 资本 论 的 时 候 知道 生产 要 
素 有 劳动 力 ,资本 以 及 土地 等 自然 资源 。 传 统 的 生产 方式 是 人 加 工 自然 资源 ,把 它们 变 成 产 
品 进行 销售 ,在 其 中 产生 增值 。 当 数据 成 为 一 种 生产 要 素 , 加 入 生产 过 程 时 ,可 以 完全 替代 
其 他 原 有 生产 要 素 ,或 是 改变 原 有 要 素 的 构成 比例 。 一 个 简单 的 例子 就 是 Google 的 自动 驾 
驶 ,通过 学 习 和 掌握 人 类 的 驾驶 行为 ,使 用 传感器 和 基于 人 工 智能 的 自动 驾驶 软件 ,可 以 完 
全 替代 最 有 经 验 的 司机 ,在 这 里 不 再 需要 司机 这 一 要 素 了 ,这 就 颠覆 了 出 租车 行业 和 驾驶 行 
业 。 再 比如 阿里 做 的 阿里 小 贷 , 在 缺乏 数据 的 情况 下 ,一 个 传统 的 银行 要 放贷 的 话 ,需要 对 
贷款 的 企业 进行 线 下 调查 ,比如 说 经 营 状况 ` 员 工 数量 .固定 资产 ,有 没有 资产 抵押 等 ,再 进 
行 各 种 各 样 的 分 析 , 差 不 多 需要 一 个 多 月 才能 放 一 笔 贷 款 , 即 使 这 样 也 不 能 保障 这 个 企业 
可 以 顺利 还 款 。 而 阿里 通过 淘宝 ,天 猫 所 有 平台 上 面 的 数据 知道 商户 所 有 的 业务 .资金 
周转 、 信 用 等 情况 ,放贷 只 需要 几 分 钟 甚至 是 更 短 的 时 间 , 在 放贷 成 本 和 周期 上 面 大 大 地 
节约 ,这 就 是 数据 成 为 生产 要 素 , 不 需要 那么 长 的 时 间 , 那 么 多 的 劳动 力 和 调研 、 金 钱 来 
决定 是 不 是 放贷 。 这 样 的 话 , 传 统 银行 很 难 和 这 种 新 兴 的 基于 数据 作 征 信和 和风 控 的 新 型 
互联 网 银行 竞争 ,面临 被 淘汰 出 局 的 危险 。 大 数据 作为 新 的 生产 要 素 , 正 在 改变 全 行业 
的 格局 。 


6.2.3 大 数据 的 基因 特性 


大 数据 的 再 一 个 特性 ,是 基因 特性 。 我 们 知道 植物 的 种 子 , 可 以 生根 发芽 .开花 结果 ， 
由 一 颗 莫 花子 ,可 以 长 出 一 大 盘 向 阳 花 和 无 数 颗 葵花 子 。 人 类 的 胚胎 可 以 孕育 出 小 宝宝 ,长 
出 头发 .眼睛 、 指 甲 等 不 同 的 身体 部 位 , 既 像 爸爸 又 像 妈 妈 。 同 样 ,一 个 国家 和 一 个 企业 的 数 
据 , 本 身 是 承载 着 这 个 国家 和 企业 的 基因 ,这 是 由 基因 的 遗传 性 决定 的 。 一 个 企业 通过 数据 
把 它 整个 企业 的 基因 传承 下 去 ,但 一 个 企业 要 根本 性 地 改变 它 的 基因 是 很 难 的 ,这 也 是 很 多 
企业 想 拥抱 互联 网 ,实现 转型 升级 ,但 举步维艰 的 原因 。 基 因 有 一 个 特性 ,就 是 可 以 进行 物 
种 的 交叉 。 如 果 多 种 数据 源 交叉 ,就 好 像 人 种 的 交叉 可 以 生出 混血 儿 一 样 , 特 别 聪 明 , 特 别 
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漂亮 ,多 种 数据 一 交叉 一 融合 就 可 以 诞生 新 的 数据 ,形成 新 的 数据 元 素 ,产生 很 大 的 一 个 变 
革 。 因 此 企业 如 果 跨 界 融 合 , 就 可 以 形成 突破 创新 。 还 有 就 是 基因 有 突变 。 基 因 如 果 突 变 
是 朝 着 好 方向 发 展 ,会 得 到 更 优秀 的 物种 和 人 类 。 如 果 朝 着 坏 方向 发 展 就 会 得 癌症 。 数 据 
如 果 利 用 不 好 就 很 可 能 带 来 毁灭 性 打击 和 影响 人 身 安全 ,利用 得 好 就 会 诞生 全 新 的 商业 模 
式 和 全 新 的 数据 使 用 方法 。 


6.2.4 大 数据 的 催化 剂 特性 


大 数据 蕴藏 着 巨大 的 价值 , 越 来 越 多 的 人 正 意 识 到 这 一 点 。 大 数据 被 誉 为 新 时 代 的 黄 
金 和 石油 ,然而 大 数据 有 一 个 特性 ,是 黄金 和 石油 不 能 比拟 的 ,使 得 它 比 黄金 和 石油 都 更 有 
价值 。 这 就 是 数据 的 催化 剂 特性 。 我 们 在 初中 化 学 中 学 到 ,催化 剂 可 以 加 速 化 学 反应 的 过 
程 ,但 它 本 身 并 不 损耗 。 同 样 ,数据 在 使 用 过 程 中 可 以 加 速 整个 生产 、 经 营 和 商业 营销 的 过 
程 ,但 数据 本 身 并 不 损耗 ,怎么 用 数据 都 是 在 那里 。 数 据 可 以 重复 使 用 ,而 且 数 据 还 可 能 越 
用 价值 越 高 。 数 据 跟 多 种 数据 源 交 叉 使 用 的 时 候 价 值 沉淀 就 越 来 越 大 。 大 数据 可 以 深入 到 
全 行业 ,可 以 循环 使 用 。 任 何 一 个 行业 要 素 都 会 损耗 ,用 完 就 没有 了 ,但 数据 可 以 一 直 用 它 ， 
越 用 越 值钱 ,可 以 说 是 最 值钱 的 行业 ,这 是 其 他 生产 资料 不 可 比拟 的 。 


6.2.5 大 数据 的 活性 和 流动 性 


前 面 提 到 了 数据 的 很 多 好 的 特性 ,但 是 如 果 光 有 数据 ,不 把 它们 很 好 地 利用 起 来 ,数据 
的 价值 就 得 不 到 发 挥 ,所 以 还 要 关注 数据 的 活性 和 流动 性 。 现 在 社会 和 企业 的 数据 ,已 经 非 
常 庞 大 ,尤其 是 一 些 传统 企业 , 比如 医疗 行业 、 银 行 .交通 ,累积 了 几 十 年 的 数据 ,但 这 些 数 
据 , 有 的 是 纸 质 的 放 在 文件 柜 里 ,有 的 是 放 在 计算 机 中 只 是 用 来 形成 报表 ,做 最 基础 的 统计 
分 析 , 数 据 没 有 利用 起 来 ,我 们 说 它们 处 在 沉睡 的 状态 。 数 据 需 要 活动 起 来 ,唤醒 起 来 ,才能 
发 挥 其 巨大 的 威力 。 数 据 也 和 资金 一 样 ,需要 周转 起 来 ,发 挥 其 流动 性 。 做 生意 的 都 知道 ， 
资金 周转 越 快 ,周转 的 次 数 越 多 ,就 越 能 赚钱 。 数 据 也 是 一 样 ,需要 更 快 地 更 多 次 数 地 使 用 
数据 ,才能 更 多 地 发 挥 它 的 价值 。 


6.2.6 大 数据 的 黑洞 效应 和 核 聚 变 效应 


依据 以 上 的 大 数据 的 几 重 特性 ,我 们 总 结 出 大 数据 具备 两 个 效应 。 第 一 个 是 大 数据 的 
黑洞 效应 ,我 们 知道 一 个 大 质量 的 星体 不 停 地 旋转 ,就 能 形成 强大 的 吸附 力 , 把 周边 的 物质 
都 吸收 进去 ,甚至 连 光线 都 不 能 逃逸 ,最 终 形成 一 个 黑洞 。 如 果 整 合 多 行业 多 源 的 数据 ,发 
挥 其 活性 和 流动 性 ,数据 的 质量 越 来 越 大 ,数据 流转 速度 越 来 越 快 ,就 可 以 把 周边 所 有 相关 
的 数据 .资源 .人 才 等 都 全 部 吸附 过 去 ,形成 一 个 巨大 的 数据 黑洞 ,最终 只 要 跟 这 个 数据 黑洞 
发 生 交集 的 都 会 被 吞 叭 进去 。 我 们 预测 未 来 全 球 就 像 宇宙 一 样 ,可 以 形成 多 个 数据 黑洞 , 现 
在 的 BAT( 百 度 、 阿 里 、 腾 讯 ) ,由 于 其 本 身 累 积 了 大 量 的 数据 ,同时 又 在 不 停 地 整合 行业 数 
据 ,已 经 具备 了 成 为 数据 黑洞 的 一 些 条 件 。 大 数据 另 一 个 效应 就 是 核 聚 变 效 应 , 当 多 种 数据 
源 进行 聚合 的 时 候 可 以 产生 密度 更 大 、 质 量 更 大 的 数据 粒子 ,这 个 聚合 的 过 程 就 是 一 个 核 聚 
变 过 程 ,最 后 能 释放 出 来 巨大 的 能 量 。 全 行业 的 全 国 性 的 ,全 球 性 的 数据 聚合 起 来 可 以 爆发 
核能 量 。 所 以 说 大 数据 是 新 时 代 创 新 的 原动力 、 核 引擎 。 

美国 的 政府 数据 开放 网 站 www. data. gov 一 年 带动 的 创新 产值 是 3 万 亿美 金 , 这 就 是 
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数据 聚合 所 能 产生 的 能 量 的 体现 。 其 中 一 个 例子 是 美国 的 Climate 公司 ,基于 上 述 政府 开 
放 数 据 网 站 ,汇总 了 250 万 个 地 点 的 气象 测量 数据 和 各 个 主要 气候 模型 的 天 气 预报 ,同时 综 
合 1500 亿 个 土壤 观测 记录 ,对 这 些 数据 进行 处 理 , 生 成 出 10 万 亿 个 天 气 模拟 数据 点 ,为 农 
业 生 产 提供 保险 服务 。Climate 几 位 联合 创始 人 是 谷歌 的 早期 员工 ,他 们 为 天 气 保险 的 投 
保 人 开发 了 一 种 自助 式 服务 ,此 前 这 类 保险 只 能 通过 定制 的 方式 进行 柜台 交易 。 现 在 ,客户 
可 以 登录 Climate 公司 的 网 站 ,确定 特定 时 间 段 内 需要 投保 的 气温 和 /或 降雨 量 范围 。 平 台 
收 到 订单 后 , 就 会 在 100ms 内 综合 分 析 天 气 预 报 、 近 30 年 来 的 国家 气象 局 (National 
Weather Service) 数 据 ,以 及 用 户 所 在 地 的 地 质 调查 数据 ,并 根据 气候 变化 ,对 分 析 结 果 进 行 
微调 。 得 出 结果 后 ,就 会 作为 保险 商 ,给 用 户 开 出 保费 。 投 保 人 如 果 因 为 意外 天 气 而 受到 损 
失 , 就 能 自动 获得 赔偿 。Climate 公司 最 终 被 美国 最 大 的 农业 公司 重山 都 以 近 10 亿美 金 
收购 。 


6.3 大 数据 创新 方法 论 


综合 以 上 的 大 数据 的 特性 和 效应 ,相信 很 多 人 都 已 经 认识 到 大 数据 的 威力 和 前 景 ,希望 
在 大 数据 行业 进行 创新 创业 。 但 是 具体 选择 什么 样 的 行业 ,采用 什么 样 的 商业 模式 ,如何 判 
断 创新 创业 是 否 能 成 功 ,是 大 家 共有 的 问题 。 我 们 依据 大 数据 的 行业 实践 ,总 结 了 一 些 大 数 
据 的 创业 方法 论 。 我 们 制定 了 10 个 维度 和 指标 ,来 指导 和 衡量 创业 创新 的 方向 和 方法 。 这 
其 中 有 5 个 基础 指标 ,我 们 认为 这 些 指标 缺 一 不 可 ,是 成 功 的 基础 。 另 5 个 是 重要 指标 ,是 
指 这 些 指标 很 重要 ,可 以 让 数据 创新 以 爆炸 式 的 发 展 模式 进行 扩张 。 但 是 也 允许 局 部 指标 
缺失 ,需要 尽力 去 考虑 和 满足 。 

1. 基础 指标 

(1) 价值 密度 : 产业 链 上 单位 时 间 内 创造 的 产值 。 产 值 越 大 ,密度 就 越 高 ,数据 创新 所 
承担 的 风险 度 也 就 越 高 ,成 功 的 可 能 性 就 相对 较 大 。 

(2) 基础 约束 度 : 体制 机制、 政策 、 资 本 等 约束 ,常常 是 能 否 实施 的 关键 。 约 束 越 大 
的 场景 ,数据 的 流动 性 就 越 受 约束 ,作用 就 越 小 ,所 带 来 的 创新 和 变异 就 越 少 ,信息 化 推 
广 和 建设 的 阻力 就 越 大 。 比 如 医疗 领域 ,行业 门槛 和 阻力 就 较 大 ,不 容易 形成 数据 创新 
和 突破 。 

(3) 投资 收益 度 及 公益 度 : 投资 收益 好 ,积极 性 就 高 。 或 者 公益 性 好 ,政府 扶持 力度 就 
大 。 二 者 如 能 结合 , 则 最 佳 。 数 据 创 新 是 逐 利 性 和 公益 性 并 存 的 ,这 个 利 不 仅 表现 在 经 济 利 
益 上 ,也 表现 在 社会 认可 上 。 

(4) 市 场 接受 数据 的 粒度 与 敏感 度 : 粒度 指 的 就 是 粗糙 度 , 粗 糙 就 是 颗粒 度 大 ,精细 就 
是 颗粒 度 小 。 很 粗糙 的 数据 也 有 人 买单 .就 意味 着 对 数据 的 敏感 度 弱 。 如 中 国 的 教育 ,只 要 
说 出 对 孩子 有 帮助 ,多 差 的 产品 ,也 会 有 大 量 的 消费 人 群 。 

(5) 数据 的 全 量度 与 实现 应 用 的 速度 : 互联 网 时 代 比 拼 的 是 谁 更 快 , 谁 覆盖 的 更 广 , 更 
有 执行 力 和 实现 力 。 但 实现 的 速度 和 数据 采集 的 全 量度 会 产生 矛盾 ,关注 了 数据 的 全 量度 ， 
就 势必 影响 实现 的 速度 ,反之 亦 然 。 怎 么 样 实现 这 两 个 指标 的 协调 统筹 ,往往 成 为 成 败 的 
关键 。 
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2. 重要 指标 

(1) 用 户 群 与 地 理 区 域 柳 盖 度 : 市 场 和 数据 覆盖 得 越 广 , 周 旋 空间 和 转型 路 径 就 越 多 ， 
企业 和 产品 就 越 安 全 。 

(2) 行业 技术 门槛 高 度 : 技术 与 人 力 资 源 的 要 求 , 不 是 基本 约束 条 件 , 但 如 果 形 成 技术 
门槛 ,追随 者 一 时 难以 赶 上 ; 没有 突破 ,就 很 可 能 被 取代 。 

(3) 社会 经 济 发 展 支撑 度 : 经 济 发 展 的 程度 ,往往 代表 人 们 信息 消费 的 力度 ,但 可 以 采 
取 适 当 的 跨越 式 发 展 。 经 济 越发 展 ,数据 创新 越 容易 被 接受 。 

(4) 行业 关联 ,渗透 与 应 用 维度 : 行业 内 应 用 维度 的 多 少 和 行业 外 渗透 关联 力度 的 大 
小 ,往往 是 爆发 式 增长 的 前 提 和 保障 。 

(5) 原 有 行业 规模 与 竞争 激烈 程度 : 竞争 越 激烈 ,模式 和 内 容 的 创新 需求 就 越 强 烈 , 切 
入 的 机 会 就 越 大 ,形成 的 效果 就 越 显著 。 

那么 如 何 运用 这 些 指标 呢 ? 简单 来 说 ,首先 就 是 选择 数据 价值 密度 高 的 行业 去 创业 。 
上 一 个 时 代价 值 密度 高 的 是 房地产 行业 ,现在 按照 我 们 的 分 析 是 金融 行业 、 健 康 行业 ,教育 、 
旅游 这 些 行业 ,价值 密度 很 高 ,每 年 每 个 用 户 花 费 上 万 元 。 但 是 行业 价值 密度 高 不 一 定做 得 
顺利 。 第 二 条 要 看 行业 门槛 够 不 够 高 ? 可 不 可 以 进去 ?比如 要 进入 医疗 行业 ,把 所 有 数据 
都 打通 ,把 全 国 所 有 医院 的 癌症 片子 都 拿 过 来 汇总 ,将 产生 巨大 的 价值 。 但 是 ,医院 不 可 能 
随便 把 数据 拿 给 你 。 所 以 ,在 医疗 行业 突破 这 个 门槛 就 非常 困难 。 其 他 的 维度 也 可 以 照 此 
分 析 。 

上 面 定 义 了 5 个 基础 维度 和 5 个 重要 维度 ,这 些 维度 的 衡量 ,可 以 用 类 似 于 图 6-2 的 蜂 
蛛网 状 的 重心 图 ,如 果 每 个 指标 都 是 相对 比较 均衡 ,分 值 较 高 ,那么 创新 创业 的 成 功 几率 就 
比较 大 ,如 果 在 某 些 维度 严重 缺失 , 那 就 要 考虑 调整 方向 ,或 是 如 何 弥补 相关 的 缺失 ,否则 创 
新 创业 的 道路 就 会 比较 艰苦 。 本 书 作者 希望 通过 这 样 一 个 简单 的 方法 论 指 导读 者 在 大 数据 
创新 创业 方面 去 做 尝试 。 


稳定 结构 图 基本 稳定 结构 图 不 稳定 结构 图 
图 6-2 稳定 性 结构 蜂 蛛 网 图 示例 


6.4 信息 演变 趋势 


从 总 体 的 信息 科技 和 互联 网 的 发 展 趋势 ,我 们 总 结 有 3 个 阶段 。 现 在 我 们 国家 提倡 “ 互 
联网 十 ”, 把 “互联 网 十 ”模式 应 用 到 所 有 的 传统 行业 里 面 去 。 从 本 质 上 来 说 ,“ 互 联网 十 ” 改 
变 的 只 是 边界 和 渠道 ,也 就 是 说 ,原来 没有 进行 传统 线 下 行业 经 营 的 ,可 以 通过 互联 网 的 方 
式 来 介入 这 些 行 业 , 并 且 改 变 行业 生态 。 另 一 方面 .传统 的 市 场 、 经 销 、 营 销 渠 道 , 转 移 到 了 基 
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于 互联 网 的 渠道 ,需要 通过 新 一 代 互联 网 媒体 .社会 化 媒体 来 到 达 受众 。 但 是 “互联 网 十 ”并 
没有 改变 商业 的 本 质 , 互 联网 应 用 最 终 还 是 要 应 用 在 数据 上 面 , 应 用 在 企业 商业 模式 上 ,依托 
数据 形成 革新 ,才能 形成 根本 性 的 变革 。 所 以 “互联 网 十 ?发 展 的 下 一 阶段 必然 是 “大 数据 十 ”， 
将 大 数据 和 各 行业 结合 起 来 ,深度 利用 数据 ,发 掘 数据 价值 ,才能 形成 理论 .模式 、 技 术 和 应 
用 方面 的 创新 。 那 么 "大 数据 十 ?发展 的 下 一 步 是 什么 呢 ? 数据 分 析 挖掘 的 目的 是 什么 ? 目 
的 还 是 要 产生 类 同 于 我 们 人 类 的 智慧 。 所 以 ,再 往 后 面 发 展 就 是 所 谓 的 机 器 智能 和 人 类 智 
慧 相 结合 的 这 样 一 个 时 代 。 现 在 英国 科学 家 已 经 把 人 脑 和 计算 机 合 在 一 起 ,连通 了 ,也 就 是 
我 们 所 说 的 “ 奇 点 "时代 正 在 来 临 。 未 来 的 决策 我 们 会 分 不 清楚 ,可 能 有 一 半 是 自己 想 的 , 另 
外 一 半 是 计算 机 做 出 来 的 。 机 器 智能 最 终 能 做 到 替代 高 级 劳动 力 的 作用 ,我 们 已 经 在 自动 
驾驶 中 将 司机 替代 了 ,未 来 会 替代 高 级 医生 教师、 律 师 、 投 资 顾问 等 ,而 且 这 些 都 正在 发 生 。 
IBM 的 Watson 机 器 人 已 经 应 用 在 癌症 诊断 方面 ,因为 处 理 的 案例 和 数据 量 大 , 比 最 有 经 验 
的 医生 诊断 率 还 高 百 分 之 十 几 。 


6.5 大 数据 创新 实践 闭环 


大 数据 在 行业 创新 和 实践 ,不 是 简单 的 数据 采集 和 分 析 , 尤 其 是 站 在 国家 发 展 战略 和 企 
业 决 策 的 层面 上 ,需要 形成 理论 、 创 新 和 实践 体系 。 那 么 如 何在 各 个 行业 领域 进行 大 数据 创 
新 实践 ,如 何 让 大 数据 在 行业 里 具体 落地 和 发 挥 价值 ? 下 面 介绍 一 个 简单 的 创新 实践 闭环 。 

1. 系统 科学 的 理论 和 方法 论 指 导 

大 数据 的 研究 和 应 用 离 不 开 科学 理论 的 指导 。 首 先 需 要 基于 数据 科学 和 数据 创新 理论 
指导 。 数 据 科 学 横 跨 多 个 学 科 领 域 ,要 形成 对 数据 的 洞察 ,数据 源 及 属性 的 选取 、 数 据 模型 
的 选择 .所 采用 的 分 析 及 验证 方法 ,都 需要 系统 .科学 的 理论 指导 和 方法 论 。 基 于 前 述 的 大 
数据 创新 理论 和 方法 论 , 可 以 有 效 地 进行 大 数据 的 行业 融合 和 模式 选择 。 

2. 标准 体系 的 建立 

大 数据 处 理 的 最 多 的 就 是 多 源 多 格式 的 数据 关联 分 析 , 在 理论 指导 的 基础 上 ,对 于 数据 
的 表示 ,存储 、 人 处 理 、 交 换 、 共 享 、 展 现 等 都 需要 建立 标准 体系 。 只 有 建立 在 开源 、 开 放 的 平台 
上 ,有 相应 的 数据 访问 标准 及 接口 ,才能 真正 促进 数据 的 互 连 互通 ,发 挥 大 数据 的 威力 。 目 
前 在 云 计算 和 大 数据 领域 ,相关 的 标准 建立 都 还 在 起 步 阶 段 。 美 国 的 国家 标准 与 技术 研究 
院 NIST 成 立 了 一 个 大 数据 工作 组 ,致力 于 大 数据 的 标准 制定 。 同 时 由 欧盟 委员 会 .美国 
政府 及 澳大利亚 政府 发 起 组 织 的 研究 数据 联盟 (Research Data Alliance) 也 在 进行 数据 方 
面 的 标准 制定 。 中 国 计 算 机 学 会 的 大 数据 专家 委员 会 也 是 致力 于 大 数据 标准 制定 的 专 
业 组 织 。 

3. 合理 的 人 才 和 知识 储备 

数据 科学 的 研究 及 应 用 都 离 不 开 数 据 科 学 家 和 数据 相关 的 从 业 人 员 的 参与 和 贡献 。 数 
据 科学 家 是 21 世纪 全 球 抢手 和 紧缺 的 人 才 , 因 此 人 才 、 知 识 的 储备 .教育 .培养 和 培训 就 尤 
为 重要 ,掌握 了 人 才 和 知识 才能 在 “数据 为 王 ” 的 新 时 代 占 领 制胜 高 点 。 美 国政 府 推出 的 面 
向 高 级 工程 专业 的 移民 政策 吸引 了 世界 上 一 大 批 优秀 人 才 , 各 大 高 校 也 在 纷纷 开设 数据 科 
学 专业 及 课程 。 我 国 也 应 加 强 数据 科学 相关 专业 人 才 的 政策 吸引 :打造 创业 环境 ; 在 高 校 
课程 及 专业 设置 及 建设 方面 急需 加 强 ; 企业 更 是 要 创造 良好 的 人 才 及 培训 环境 ,注重 全 员 
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的 大 数据 培训 ,才能 在 大 数据 浪潮 中 不 被 淘汰 。 随 着 我 国 大 数据 战略 的 实施 ,很 多 地 方 政 府 
都 制定 了 大 数据 人 才 的 培训 培养 战略 ,各 类 高 校 、 职 业 学 院 / 学 校 培 训 机 构 也 都 开设 了 大 数 
据 人 才 的 培训 和 实践 课程 。 大 数据 人 才 的 储备 是 大 数据 产业 发 展 的 基础 。 

4. 典型 应 用 场景 的 分 析 
于 大 数据 是 在 现实 生产 场景 中 直到 的 切实 问题 ,因此 大 数据 的 应 用 不 能 走 主 观 、 脱 离 
实际 的 道路 。 要 到 生产 一 线 中 去 发 现 问题 .分析 实际 应 用 场景 中 已 经 不 能 解决 或 是 急需 解 
决 的 大 数据 问题 。 正 是 由 于 实践 问题 ,才能 驱动 大 数据 的 技术 应 用 和 技术 创新 。 例 如 城市 
的 交通 视频 监控 ,一 个 中 等 规模 的 城市 每 天 产生 的 视频 数据 就 达 十 几 TB, 在 数据 的 存储 以 
及 实时 分 析 方 面 就 面临 巨大 的 问题 ,将 大 数据 应 用 于 这 些 领 域 ,就 能 马上 产生 价值 。 同 时 注 
重 从 数据 出 发 .梳理 数据 资产 和 发 挥 数据 的 融合 效应 ,将 有 效 地 形成 应 用 创新 。 

5. 核心 关键 技术 的 研究 

当前 得 到 广泛 应 用 的 大 数据 技术 还 是 以 Hadoop 为 主 的 开源 技术 ,开源 技术 在 大 数据 
生态 中 将 占 主导 地 位 ,也 对 行业 做 出 巨大 贡献 。 但 基于 开源 技术 带 来 的 挑战 ,是 技术 门槛 降 
低 和 激烈 的 竞争 ,当前 IBM 微软 ,Intel .Oracle .HP 等 IT 巨头 都 推出 了 基于 Hadoop 的 大 
数据 集成 产品 。 因 此 在 大 数据 行业 中 ,还 是 要 结合 行业 知识 .经 验 和 实践 ,形成 企业 自己 的 
核心 关键 技术 ,同时 加 强 技术 运营 ,维护 及 服务 ,才能 提高 企业 的 竞争 力 , 在 大 数据 市 场 中 占 
领 一 席 之 地 。 

6. 自主 可 控 的 产品 

中 国 的 信息 化 建设 ,长 期 处 于 被 国外 先进 产品 和 技术 垄断 的 状态 。 大 多 数 政 府 及 企业 
的 信息 化 架构 ,都 是 基于 IOE 三 驾 马 车 , 即 IBM 的 服务 器 、Oracle 的 数据 库 , 以 及 EMC 的 
存储 。 采 用 国外 成 熟 先进 的 产品 ,本 也 无 可 厚 非 , 但 确实 对 国产 自主 的 软件 开发 及 行业 发 展 
造成 了 极 大 的 阻碍 。 随 着 大 数据 的 爆发 ,这 些 大 公司 的 产品 本 身 对 大 数据 的 处 理 能 力也 都 
存在 很 大 的 局 限 , 加 上 在 国产 化 和 国家 信息 安全 方面 的 注重 ,目前 全 国 “ 去 IOE 化 ”的 呼声 
越 来 越 高 。 在 大 数据 时 代 , 目 前 还 未 形成 占据 市 场 垄断 地 位 的 大 数据 巨头 公司 和 产品 ,同时 
开源 技术 也 很 普及 ,因此 抓 住 时 代 机 遇 , 加 强 我 国 自 主 的 关键 技术 研究 ,形成 自主 可 控 的 大 
数据 产品 ,将 使 我 们 有 机 会 实现 弯 道 追赶 ,打破 国外 技术 垄断 ,发 展 我 国 的 大 数据 产业 ,在 国 
际 市 场 中 一 较 高 低 。 

7. 开放 的 创新 体制 

大 数据 需要 开源 、 开 放 的 数据 ,标准 和 平台 ,形成 开放 的 实践 和 创新 体制 。 在 此 基础 上 
可 以 集 众人 之 智 , 采 众人 所 长 ,形成 新 技术 、 新 产品 、 新 模式 、 新 服务 ,促进 科技 创新 和 发 展 。 
也 只 有 基于 开放 的 体系 ,才能 鼓励 和 推动 创新 ,促进 大 数据 产业 的 良性 发 展 。 基 于 数据 建设 
全 国 性 的 地方 性 的 ,以 及 行业 和 企业 级 的 数据 开放 、 众 创 、 交 换 和 交易 平台 ,将 极 大 地 促进 
数据 创新 ,发 挥 数据 的 社会 和 经 济 效益 。 


6.6 中 国 创新 创业 大 数据 版 图 


为 了 将 前 面 总 结 的 理论 及 方法 论 付 诸 实践 并 进行 检验 , 清 数 科技 在 成 都 还 建立 了 全 链 
条 的 创新 创业 旷 化 器 一 -第 五 维 国际 大 数据 钱 化 器 。 孵 化 器 为 创新 创业 企业 不 只 是 提供 办 
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公 场 地 和 创业 辅导 ,还 提供 云 计算 和 大 数据 技术 平台 支撑 ,依托 大 数据 相关 协会 和 联盟 进行 
市 场 推广 ,以 及 线 上 线 下 媒体 进行 市 场 营销 ,同时 还 设立 大 数据 产业 基金 提供 投资 服务 。 孵 
化 器 也 建立 了 和 美国 硅谷 及 西雅图 .英国 的 孵化 器 合作 ,致力 于 打造 国际 级 的 专业 大 数据 孵 
化 器 ,帮助 创新 创业 企业 成 长 。 在 建设 和 运营 孵化 器 的 过 程 中 ,我 们 认识 到 如 果 能 够 利用 大 
数据 对 全 国 的 创新 创业 态势 进行 综合 的 分 析 和 展示 ,将 不 仅 帮助 我 们 自己 对 全 国 和 各 省 市 
的 双 创 发 展 有 一 个 全 面 的 把 握 和 比较 ,还 能 够 帮助 政府 .企业 ,行业 和 其 他 各 参与 方 也 有 同 
样 的 收获 ,因而 我 们 规划 并 开发 了 中 国 创 新 创业 大 数据 版 图 ,将 中 国 自 2013 年 以 来 的 双 创 
产业 发 展 全 面 、 综 合 地 用 大 数据 的 方法 收集 、 处 理 并 展示 出 来 。 


6.6.1 大 数据 时 代 的 数据 管理 


随 着 云 计 算 、 物 联网 等 技术 的 兴起 ,数据 正 以 前 所 未 有 的 速度 在 不 断 地 增长 和 累积 ,大 
数据 时 代 已 然 来 到 。 在 大 数据 时 代 , 数 据 仍然 是 最 关键 的 。 如 何 将 大 数据 管理 好 ,仍然 是 对 
企业 的 考验 。 手 机 通话 、 移 动 在 产生 数据 ,ATM 在 产生 数据 ,商品 上 的 RFID 在 产生 数据 ， 
包 右 从 一 个 城市 到 另 一 个 城市 在 产生 数据 。 就 算是 一 个 小 小 的 店铺 , 当 它 销售 出 去 一 瓶 水 ， 
也 可 能 会 记录 到 Excel 里 面 ,产生 数据 。 数 据 记 录 着 世界 的 存在 和 变化 。 

当 企 业 的 某 项 资产 非常 重要 ,数量 巨大 时 ,就 需要 有 效 管理 。 如 今 ,数据 已 经 成 为 这 种 
资产 。 以 前 人 们 还 不 会 将 它 看 作 是 资产 ,而 是 一 种 附属 物 。 客 户 来 办 理 业 务 , 在 系统 中 产生 
了 这 种 附属 物 。 而 现在 ,发 现在 客户 办 理 业务 这 条 信息 中 ,蕴含 着 一 些 客户 的 需求 ,成 千 上 
万 条 这 类 信息 累积 下 来 ,就 能 洞察 客户 所 需 , 为 设计 新 产品 ,为 客户 个 性 化 营销 产生 新 的 价 
值 。 数 据 变 成 了 一 种 资产 ,需要 被 管理 起 来 。 

人 类 历史 上 从 未 有 哪个 时 代 和 今天 一 样 产生 如 此 海量 的 数据 。 数 据 的 产生 已 经 完全 不 
受 时 间 、 地 点 的 限制 。 从 开始 采用 数据 库 作为 数据 管理 的 主要 方式 开始 ,人 类 社会 的 数据 产 
生 方式 大 致 经 历 了 以 下 3 个 阶段 。 

(1) 运营 式 系统 阶段 。 人 类 社会 数据 量 第 一 次 大 的 飞跃 正 是 建立 在 运营 式 系统 开始 广 
泛 使 用 数据 库 的 基础 上 。 

(2) 用 户 原创 内 容 阶 段 。 互 联网 的 诞生 促使 人 类 社会 数据 量 出 现 第 2 次 大 的 飞跃 。 

(3) 感知 式 系统 阶段 。 人 类 社会 数据 量 第 3 次 大 的 飞跃 在 于 感知 式 系统 的 广泛 使 用 。 
随 着 技术 的 发 展 ,人 们 已 经 有 能 力 制造 极其 微小 的 带 有 处 理 功能 的 传感器 ,并 开始 将 这 些 设 
备 广泛 地 布置 于 社会 的 各 个 角落 。 这 些 设备 会 源源 不 断 地 产生 新 数据 。 

数据 的 产生 渠道 变 得 更 加 广泛 ,同时 数据 对 于 政府 和 企业 的 重要 性 愈 来 愈 强 , 如 何 收集 
和 管理 这 些 数据 就 成 了 人 们 广泛 关注 和 研究 的 问题 。 大 数据 特有 的 4V 特性 让 以 传统 关系 
型 数据 库 作为 核心 的 数据 管理 方式 变 得 不 再 有 效 , 面 对 海 量 异 构 的 数据 时 ,关系 型 数据 库 显 
得 越 来 越 力不从心 ,仍然 以 第 一 阶段 的 运营 式 系统 的 方式 来 建设 大 数据 系统 是 不 现实 的 。 
而 政府 和 企业 对 技术 的 需求 变 得 更 加 强烈 ,所 以 各 类 大 数据 技术 开始 迅速 发 展 。 从 数据 采 
集 、 数 据 传输 、 数 据 存储 数据 分 析 到 数据 可 视 化 等 各 个 环节 都 有 新 的 技术 和 框架 不 断 推出 ， 
去 适应 和 解决 大 数据 环境 中 的 各 种 问题 。 


6.6.2 大 众 创业 万 众 创新 的 浪潮 
最 早 在 2014 年 9 月 的 夏季 达 沃 斯 论坛 上 ,李克强 总 理 在 公开 场合 发 布 * 大 众 创新 、 万 众 
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创业 ”的 号 召 。 他 提出 要 在 960 万 平方 公里 土地 上 掀起 “大 众 创业 ”草根 创业 ”的 新 浪潮 , 形 
成 “万 众 创新 “人 人 创新 ”的 新 态势 。 此 后 他 在 首届 世界 互联 网 大 会 .国务 院 常 务 会 议和 各 
种 场合 中 频频 阐释 这 一 关键 词 。 每 到 一 地 考察 ,他 几乎 都 要 与 当地 年 轻 的 “ 创 客 ”会面 。 他 
希望 激发 民族 的 创业 精神 和 创新 基因 。 

2015 年 ,李克强 总 理 在 政府 工作 报告 中 又 提出 :“ 大 众 创新 ,万 众 创业 ”。 政府 工作 报 
告 中 如 此 表述 : 推动 大 众 创 业 、 万 众 创新 ,“ 既 可 以 扩大 就 业 、 增 加 居民 收入 ,又 有 利于 促进 
社会 纵向 流动 和 公平 正义 ”在 论 及 创业 创新 文化 时 ,强调 “让 人 们 在 创造 财富 的 过 程 中 ,更 
好 地 实现 精神 追求 和 自身 价值 ”。 

在 信息 经 济 发 展 当 下 ,知识 经 济 、 共 享 经 济 、 创 新 经 济 成 为 时 代 潮 流 ,尤其 当 90 后 逐步 
成 为 消费 市 场 的 主体 。 无 论 是 欧美 等 发 达 经 济 体 ,还 是 中 国 ,“ 互 联网 十 ”的 发 展 势头 都 锐 不 
可 当 。“ 互 联网 十 "是 衡量 创新 创业 的 合理 的 切入 点 ,“ 互 联网 十 "样本 数据 既 能 有 效 识别 创 
新 驱动 ,又 能 有 效 地 跟踪 创业 者 的 创业 不 同 阶段 。 更 为 重要 的 是 ,在 中 国 , 它 代表 了 产业 发 
展 的 未 来 趋势 与 走向 。 而 “互联 网 十 ”和 双 创 的 有 机 结合 ,为 中 国 经 济 转型 和 改革 提供 了 源 
源 不 断 的 创新 动力 和 创造 活力 。 对 中 国 主动 适应 和 引领 经 济 发 展 新 常态 ,形成 经 济 发 展 新 
动能 ,实现 中 国 经 济 提 质 增 效 升级 具有 重要 的 意义 。 

中 国 的 经 济 发 展 经 过 30 年 高 速 发 展 ,在 “十 三 五 期间 开始 进入 新 的 发 展 阶段 ,社会 发 
展 对 创新 的 要 求 提高 到 了 一 个 更 高 的 层次 。 根 据 工商 总 局 公布 的 数据 ,2016 年 第 一 季度 全 
国 社会 投资 创业 势头 良好 ,新 产业 .新 业态 、 新 模式 蓬勃 发 展 ,特别 是 小 微 企业 活跃 度 稳 步 
提升 。 

当前 国内 的 创新 创业 形势 一 片 大 好 ,特别 是 各 级 政府 都 出 台 了 大 量 政策 吸引 和 鼓励 创 
新 型 企业 的 入 驻 及 发 展 。 中 央 各 部 委 更 是 多 次 发 出 指导 性 文件 ,为 双 创 服务 的 政策 体系 正 
在 逐步 完善 中 。 有 数据 显示 ,目前 ,全 国 各 类 众 创 空间 已 超过 2300 家 ,与 现 有 2500 多 家 科 
技 企业 孵化 器 ,加速 器 ,11 个 国家 自主 创新 示范 区 和 146 个 国家 高 新 区 ,共同 形成 完整 的 创 
业 服 务 链条 和 良好 的 创新 生态 ,这 些 众 创 空 间 、 钥 化 器 、 高 新 区 共同 构成 了 为 双 创 企业 服务 
的 完整 链条 ,为 双 创 企业 的 发 展 提供 坚固 的 平台 。 

但 是 在 大 好 形势 的 背后 也 出 现 了 一 些 问题 ,2015 年 下 半年 开始 , 双 创 的 这 股 热情 似乎 
有 些 低落 ,产业 界 中 频频 出 现 各 种 创业 企业 的 死亡 名 单 ,“ 投 资 的 冬天 开始 出 现 ” 等 论调 也 开 
始 出 现 。 各 种 资本 、 钥 化 器 等 产业 扶持 力量 的 介入 ,似乎 并 未 带 来 预料 的 理想 效果 。 当 前 ， 
创新 创业 项 目 出 现 低潮 ,原因 是 多 方面 的 ,其 背后 存在 着 团队 ,产品 资金 ,市 场 , 产 业 等 诸多 
问题 ,主要 体现 为 创业 团队 的 清晰 定位 .对待 投 资 的 客观 态度 ,产业 环境 的 准备 把 握 三 大 
方面 。 

当 梳理 出 创业 失败 背后 的 原因 之 后 ,创业 团队 要 审视 和 思考 自己 的 优势 在 哪里 ,如 何 发 
挥 出 这 种 优势 ? 创业 过 程 中 哪些 环节 可 能 会 出 现 问题 ,如 何 规避 和 化 解 这 些 问 题 ? 又 该 如 
何 学 会 借 力 ? 资本 .产业 资源 又 该 如 何 发 力 , 才 能 有 效 帮助 到 创业 团队 ? 政府 要 如 何 灵 活 地 
修订 政策 ,才能 释放 创业 团队 的 活力 ? 这 些 问题 都 是 吸 待 解决 的 重要 问题 。 


6.6.3 中国 创新 创业 大 数据 版 图 的 推出 
那么 ,应 该 如 何 去 解 决 这 些 问题 ,发 现 真正 的 创新 创业 价值 ,释放 大 众 的 创业 激情 和 创 


和 
新 能 力 呢 ? 我 们 需要 从 数据 的 角度 去 全 景 式 地 掌握 全 国 各 个 地 区 的 双 创 发 展 状 况 ,衡量 当 
前 火热 的 双 创 态势 下 企业 的 真实 生存 状态 ,并 为 创业 企业 提供 深入 有 内 涵 的 市 场 分 析 。 这 
样 才能 准确 地 发 现 创业 的 痛 点 ,做 到 资源 的 合理 分 配 , 政 策 的 合理 制定 ,人 才 、 资 金 的 合理 流 
动 ,这 就 涉及 如 何 利用 双 创 数据 的 问题 ,而 这 正 是 一 个 典型 的 大 数据 问题 。 

全 国 双 创 相关 数据 包括 工商 数据 、 政 府 数 据 \ 市 场 数据 、 媒 体 数 据 等 各 种 数据 来 源 , 而 且 
数据 的 类 型 和 产生 速度 都 不 一 样 。 如 何 解决 各 种 数据 源 的 融合 ,将 双 创 相关 数据 利用 大 数 
据 技术 来 进行 有 效 的 管理 利用 ,是 需要 主要 解决 的 问题 。 

得 益 于 大 数据 的 全 面 性 、 完 整 性 ,我 们 可 以 同时 以 宏观 和 微观 的 视角 去 审视 当前 全 国 的 
创新 创业 形势 ,发 现 潜伏 其 中 的 问题 和 机 遇 。 以 往 我 们 都 是 通过 政府 报告 或 者 新 闻 媒 体 报 
道 的 形式 去 了 解 当 前 的 形势 ,但 是 总 会 存在 宏观 数据 无 法 深入 传递 数据 价值 ,宏观 数据 掩盖 
细 分 领域 发 展 情况 的 问题 。 而 微观 数据 则 面临 无 法 让 人 总 找 全 局 ,容易 陷入 特定 案例 情况 ， 
或 问题 定位 错误 的 情况 。 

清 数 中 国 创新 创业 大 数据 版 图 是 利用 目前 领先 的 大 数据 技术 ,基于 清 数 自主 研发 的 大 
数据 一 体 机 NEO, 结 合 深度 的 调研 摸底 ,对 全 国 海量 双 创 数据 多 维度 的 采集 、 储 存 、 分 析 、 
挖掘 、 可 视 化 的 全 流程 处 理 , 展 现 了 一 个 实时 更 新 、 覆 盖 面 广 、 参 考 价 值 高 的 全 景 式 版 图 ， 
主要 特点 就 是 多 维度 、 可 比较 、 相 关 性 强 、 全 景 式 , 是 大 数据 技术 在 应 用 层面 的 一 个 集中 
展示 。 

目前 清 数 双 创 大 数据 版 图 已 经 涵盖 了 双 创 核心 二 十 多 个 维度 ,收录 全 国 所 有 地 区 从 
2010 年 至 今 的 双 创 相 关 数 据 , 并 进行 集中 、 全 面 的 数据 深入 分 析 。 同 时 对 不 同 维度 相关 性 
数据 融合 后 ,利用 算法 ,分 析 得 出 清 数 双 创 指数 来 整体 反映 一 个 地 区 的 双 创 活跃 度 ( 如 
图 6-3 所 示 ) ,同时 还 能 进行 省 份 ,城市 及 地 区 之 间 的 双 创 指数 对 比 ,为 政府 企业、 投资 、 创 
业 、 就 业 决 策 提供 综合 的 参考 依据 。 











图 6-3 中 国 创新 创业 大 数据 版 图 一 一 省 份 统计 
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目前 架构 中 对 于 双 创 关注 的 核心 维度 已 经 全 部 上 线 , 发 布 之 后 随 着 数据 的 补充 更 新 和 
局 部 细 化 ,最 后 能 将 版 图 细 化 到 某 地 市 某 区 的 某 个 园区 和 企业 ,达到 对 双 创 数据 的 全 方位 管 
理 ,真正 实现 双 创 数据 价值 的 转化 ,目标 是 把 双 创 大 数据 版 图 做 成 一 个 关注 和 致力 于 双 创 产 
业 的 基础 检索 和 辅助 决策 工具 。 


6.6.4 双 创 版 图 中 的 大 数据 管理 挑战 


针对 双 创 数据 的 数据 管理 面临 很 多 挑战 需要 解决 ,在 中 国 创新 创业 大 数据 版 图 的 实现 
过 程 中 ,综合 利用 多 项 大 数据 技术 逐 项 突破 ,实现 了 全 国 双 创 数据 的 集中 管理 和 利用 。 

那么 主要 面临 的 各 项 挑战 又 有 哪些 呢 ? 我 们 总 结 有 以 下 几 点 。 

1. 数据 集成 

数据 的 广泛 存在 性 使 得 数据 越 来 越 多 地 散布 于 不 同 的 数据 管理 系统 中 ,为 了 便于 进行 
数据 分 析 需 要 进行 数据 的 集成 。 数 据 集成 看 起 来 并 不 是 一 个 新 的 问题 ,但 是 大 数据 时 代 的 
数据 集成 却 有 了 新 的 需求 ,因此 也 面临 着 新 的 挑战 。 大 数据 的 多 源 异 构 特性 决定 了 要 整合 
各 类 数据 源 ,并 处 理 好 数据 爆炸 问题 。 

2. 数据 质量 

数据 量 大 不 一 定 就 代表 信息 量 或 者 数据 价值 的 增 大 ,相反 ,很 多 时 候 意味 着 信息 垃圾 的 
泛滥 。 一 方面 ,很 难 有 单个 系统 能 够 容纳 下 从 不 同 数据 源 集成 的 海量 数据 ; 另 一 方面 ,如 果 
在 集成 的 过 程 中 仅仅 简单 地 将 所 有 数据 聚集 在 一 起 而 不 做 任何 数据 清洗 ,会 使 得 过 多 的 无 
用 数据 干扰 后 续 的 数据 分 析 过 程 。 大 数据 时 代 的 数据 清洗 过 程 必须 更 加 谨慎 ,因为 相对 细 
微 的 有 用 信息 混杂 在 庞大 的 数据 量 中 。 如 果 信息 清洗 的 粒度 过 细 , 很 容易 将 有 用 的 信息 过 
滤 掉 。 清 洗 粒度 过 粗 又 无 法 达到 真正 的 清洗 效果 ,因此 在 质 与 量 之 间 需 要 进行 仔细 的 考量 
和 权衡。 

3. 数据 处 理 的 实时 性 

随 着 时 间 的 流逝 ,数据 中 所 蕴含 的 知识 价值 往往 也 在 衰减 ,因此 很 多 领域 对 于 数据 的 实 
时 处 理 有 需求 。 随 着 大 数据 时 代 的 到 来 ,更 多 应 用 场景 的 数据 分 析 从 离线 转向 了 在 线 , 开 始 
出 现实 时 处 理 的 需求 ,比如 实时 广告 竞价 问题 。 大 数据 时 代 的 数据 实时 处 理 面临 着 一 些 新 
的 挑战 ,主要 体现 在 数据 处 理 模式 的 选择 及 改进 。 在 实时 处 理 的 模式 选择 中 主要 有 3 种 思 
路 : 即 流 处 理 模式 、 批 处 理 模式 以 及 二 者 的 融合 。 各 种 工具 实现 实时 处 理 的 方法 不 一 ,实际 
应 用 中 往往 需要 根据 自己 的 业务 需求 和 应 用 场景 对 现 有 的 这 些 技术 和 工具 进行 改造 才能 满 
足 要 求 。 

4。 隐私 数据 的 保护 

很 多 时 候 人 们 有 意识 地 将 自己 的 行为 隐藏 起 来 ,试图 达到 隐私 保护 的 目的 。 但 是 互联 
网 尤其 是 社交 网 络 的 出 现 ,使 得 人 们 在 不 同 的 地 点 产生 越 来 越 多 的 数据 足迹 。 这 种 数据 具 
有 累积 性 和 关联 性 :单个 地 点 的 信息 可 能 不 会 暴露 用 户 的 隐私 ,但 是 如 果 有 办 法 将 某 个 人 的 
很 多 行为 从 不 同 的 独立 地 点 聚集 在 一 起 时 ,他 的 隐私 就 很 可 能 会 暴露 ,因为 有 关 他 的 信息 已 
经 足够 多 ,这 种 隐 性 的 数据 暴露 往往 是 个 人 无 法 预知 和 控制 的 。 从 技术 层面 来 说 ,可 以 通过 
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数据 抽取 和 集成 来 实现 用 户 隐私 的 获取 。 而 在 现实 中 通过 所 谓 的 众 包 方式 往往 能 更 快速 、 
准确 地 得 到 结果 。 


6.6.5 双 创 版 图 中 大 数据 技术 的 集中 运用 


首先 需要 对 双 创 代表 的 含义 进行 建 模 ,确定 什么 样 的 维度 能 够 反映 出 双 创 的 形势 。 比 
如 要 了 解 某 个 地 区 的 人 才情 况 , 需 要 有 不 同 层次 人 才 的 详细 人 数 ,更 深入 的 可 以 有 留学 归 国 
创业 人 员 的 留学 国 数据 ,以 此 来 判断 哪个 国家 有 更 多 的 留学 生 回国 ,及 哪个 国家 的 留学 生 更 
有 创业 精神 ,如 图 6-4 所 示 。 
人 才 


资金 热度 


市 场 政策 
图 6-4 清 数 双 创 大 数据 指数 


为 了 能 够 定义 出 更 精确 ,更 广泛 的 维度 ,我 们 进行 了 大 量 的 讨论 和 对 实际 情况 的 调研 。 
最 终 将 双 创 相关 的 维度 划分 为 5 个 大 方向 : 资金 ,人 才 , 政 策 , 市 场 ,热度 。 资 金 代表 了 市 场 
和 政府 资金 的 数量 和 走向 ,是 对 创业 起 到 决定 性 作用 的 一 个 要 素 , 哪 里 有 资金 哪里 就 有 活路 
的 创业 企业 和 创业 团队 ,资金 是 最 代表 资源 配置 情况 的 一 个 维度 方向 。 人 才 则 代表 了 当前 
人 才 的 聚集 和 流动 情况 ,一 定 程度 上 人 才 是 和 资金 的 情况 具有 正 向 关系 的 。 政 策 是 代表 了 
政府 对 于 双 创 的 政策 支持 和 政策 执行 情况 。 市 场 表示 的 是 当前 双 创 企业 相关 的 市 场 指标 ， 
比如 总 体 企 业 数 量 、 当 月 新 注册 企业 数量 ,分 行业 企业 数量 等 。 热 度 则 是 反映 双 创 在 新 闻 媒 
体 和 网 友和 群众 之 间 的 讨论 度 及 关注 度 , 有 更 多 人 讨论 的 企业 或 者 产品 表示 了 其 目前 正 处 在 
迅速 扩张 的 阶段 ,也 更 容易 获得 资金 和 人 才 的 青睐 ,同时 可 以 结合 政策 和 市 场 这 两 个 维度 ， 
看 出 企业 获得 的 支持 力度 如 何 , 是 否 正 在 引领 一 次 新 的 细 分 行业 创业 浪潮 。 

在 定义 出 了 相关 的 能 够 反映 双 创 的 维度 后 ,需要 获取 的 是 对 应 的 数据 。 当 前 的 这 些 维 
度 , 需 要 获得 的 数据 分 为 两 类 ,一 类 是 可 以 通过 公开 渠道 获取 到 的 ,比如 新 闻 媒体 的 报道 和 
网 友 的 讨论 , 另 一 类 是 需要 通过 政府 等 相关 数据 源 的 合作 建设 才能 获取 到 ,这 一 部 分 我 们 采 
取 了 循序 渐进 的 方式 来 建设 ,通过 和 多 地 的 政府 建立 合作 关系 来 逐步 丰富 ,最终 获取 到 接近 
全 量 的 数据 。 如 图 6-5 所 示 为 双 创 版 图 的 基本 数据 处 理 流程 ,可 以 看 到 我 们 对 通过 各 种 数 
据 收集 方式 获得 的 数据 经 过 一 个 完整 的 数据 分 析 挖 掘 流程 以 后 才能 得 到 最 终 的 数据 产品 来 
呈现 给 终端 用 户 。 这 其 中 的 每 一 步 都 是 对 数据 的 过 滤 和 价值 提炼 ,让 数据 能 够 融合 ,产生 更 
多 的 聚集 效应 。 

数据 的 收集 是 一 个 非常 重要 的 步 又。 我 们 为 了 获取 到 尽量 多 的 数据 , 先 采 用 了 在 公开 
网 络 上 抓 取 的 方式 对 相关 的 数据 进行 获取 。 在 公开 网 络 上 使 用 怜 虫 抓 取 数 据 已 经 是 一 个 很 
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图 6-5 双 创 版 图 的 数据 处 理 流 程 


成 熟 的 技术 ,而 且 是 Google 百度 等 搜索 引擎 的 基础 技术 。 成 千 上 万 的 聆 虫 没 日 没 夜 地 在 
互联 网 上 人 疏 取 数据 , 才 造 就 了 这 些 企 业 海量 的 数据 基础 。 这 次 我 们 的 数据 抓 取 工作 主要 是 
针对 国内 的 新 闻 媒 体 的 报道 和 微 博 论坛 等 公开 网 络 空间 言论 。 

我 们 自己 编写 了 针对 性 的 疏 虫 机 器 人 ,就 像 是 人 在 浏览 网 页 一 样 , 不 仅 对 互联 网 上 的 指 
定 内 容 进行 浏览 ,同时 将 浏览 过 的 网 页 保存 到 疏 虫 机 器 人 所 在 的 本 地 存储 中 。 这 些 数据 经 
过 规整 人 库 以 后 ,能 够 形成 一 个 信息 和 文本 检索 库 , 这 就 是 我 们 分 析 的 一 个 重要 来 源 。 比 如 
说 一 款 新 的 社交 APP 在 微 博 上 的 讨论 次 数 ,点 赞 次 数 、 分 享 次 数 ,就 可 以 直接 从 本 地 检索 库 
中 获取 到 ,从 而 根据 这 些 次 数 来 判断 出 这 款 APP 当前 的 讨论 热度 和 上 升 趋势 。 

另 一 方面 ,我 们 也 采用 数据 众 筹 的 方式 ,和 地 方 政府 .科技 园 等 合作 ,获取 当地 科技 企业 
的 完整 数据 。 这 部 分 具有 权威 性 的 数据 也 是 重要 的 种 子 数据 ,可 以 为 指数 计算 中 的 权重 设 
置 提 供 重要 的 依据 。 

类 似 地 ,我 们 采用 同样 的 方式 对 其 他 需要 的 数据 都 进行 了 抓 取 ,规整 和 人 库 后 ,就 有 了 分 
析 的 基础 。 一 个 公司 的 基本 信息 、 创 始 人 信息 、 融 资信 息 、 新 闻 媒 体 和 网 友 对 其 的 讨论 和 评 
价 等 ,构成 了 一 个 企业 的 全 方位 全 角度 的 数据 解读 ,再 结合 其 所 在 行业 和 地 区 的 市 场 和 政策 
情况 ,就 能 定义 出 企业 的 健康 情况 、 活 跃 程 度 、 发 展 爆发 力 等 更 有 意义 的 维度 。 对 所 有 企业 
都 能 够 进行 量化 的 判断 后 ,就 能 从 行业 、 地 区 等 角度 总 结 出 整体 的 双 创 态势 ,更 进一步 地 可 
以 用 指数 形式 来 描述 ,从 而 进行 企业 、 地 区 和 行业 间 的 量化 比较 和 评级 。 

接 下 来 在 对 双 创 数据 进行 处 理 的 过 程 中 ,我 们 使 用 了 自主 开发 的 NEO 大 数据 一 体 机 。 
NEO 开发 团队 通过 总 结 多 年 的 大 数据 实施 经 验 ,整合 行业 专家 多 年 的 算法 经 验 ,总 结 应 用 
的 共性 ,沉淀 多 个 行业 模型 ,提炼 出 一 整套 大 数据 实施 标准 ,针对 大 数据 中 常见 的 数据 分 布 、 
数据 连接 等 问题 ,提出 处 理 准则 ,有 效 解决 了 大 数据 实施 中 常见 的 问题 。 

NEO 大 数据 一 体 机 正 是 这 些 经 验 沉淀 的 产品 ;区别 于 SAP Hana、 Oracle RAC、 
Exadata 等 高 硬件 配置 的 一 体 机 产品 ,NEO 通过 软 硬 件 联合 优化 的 思路 ,从 网 络 I/O\ 硬 盘 、 
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内 存 使 用 数据 感知 多 个 方面 着 手 , 尽 可 能 发 挥 软 硬件 能 力 , 从 而 极 大 降低 大 数据 实施 成 本 。 
NEO 一 体 机 通过 标准 化 的 架构 集成 服务 器 ,存储 、 网 络 .软件 .操作 系统 等 配置 ,简化 工程 实 
施 难度 ,简化 数据 中 心 基础 设施 部 署 和 运 维 管理 的 复杂 性 ,提升 服务 器 运行 效率 、 降 低 部 署 
调 优 难度 .避免 差异 化 设备 导致 的 集群 不 稳定 性 ,为 行业 用 户 提供 成 熟 的 一 整套 集成 解决 方 
案 , 让 用 户 将 研发 重心 放 在 用 户 应 用 业务 的 开发 上 ,增加 商业 附加 价值 。 

在 使 用 NEO 大 数据 一 体 机 过 程 中 ,可 以 专注 于 设计 分 析 模 型 ,而 不 用 再 关心 集群 性 能 
是 否 发 挥 完 全 、 算 法 是 否 已 足够 优化 等 问题 ,这 些 都 由 NEO 大 数据 一 体 机 进行 集中 的 处 
理 ,其 最 后 提供 给 分 析 人 员 的 是 统一 的 分 析 工 具 和 能 力 。 

我 们 主要 是 利用 了 NEO 大 数据 一 体 机 提供 的 海量 存储 扩展 能 力 和 多 维度 分 析 查 询 。 
在 对 公开 网 络 上 的 数据 进行 抓 取 时 ,其 数据 量 是 不 可 预测 的 。 可 以 利用 NEO 大 数据 一 体 
机 的 无 限 扩展 的 特性 ,从 规模 较 小 的 集群 开始 搭建 ,根据 抓 取 到 的 数据 实时 地 扩展 集群 规 
模 , 同 时 不 影响 数据 抓 取 工作 的 进行 ,这 极 大 地 提高 了 工作 效率 和 工作 难度 。 

在 对 数据 进行 深入 的 分 析 时 ,我们 利用 NEO 大 数据 一 体 机 的 多 维度 分 析 查 询 功 能 , 针 
对 我 们 目前 定义 的 二 十 多 个 维度 设计 了 更 多 的 交叉 维度 分 析 和 查询 功能 ,NEO 能 够 很 好 地 
支持 实时 的 分 析 和 查询 ,同时 能 够 在 秒 级 甚至 毫秒 级 完成 。 在 对 数据 进行 各 种 横向 和 纵向 
的 分 析 时 ,能够 实时 产生 分 析 结果 ,实现 了 分 析 角 度 的 极 大 扩展 。 

最 后 ,通过 数据 可 视 化 技术 将 分 析 结 果 进 行 统一 的 展示 。 这 里 选择 了 更 有 定制 性 和 扩 
展 性 的 数据 可 视 化 技术 ,能 够 根据 我 们 的 需求 来 生成 分 析 结 果 的 呈现 效果 ,并 且 能 够 以 全 
景 ,深度 ,直观 的 方式 来 展示 最 后 的 分 析 结果 。 

清 数 双 创 指数 是 我 们 在 分 析 过 程 中 提出 的 最 新 概念 。 类 似 现在 的 各 种 经 济 指数 , 双 创 
指数 是 整体 反映 一 个 地 区 的 双 创 健康 程度 和 活跃 程度 的 综合 指数 ,以 量化 的 方式 直观 地 体 
现 地 区 双 创 竞争 力 。 清 数 双 创 指 数 的 提出 首先 是 对 目前 的 二 十 多 个 维度 的 数据 进行 类 型 、 
性 质 、 影 响 程度 的 划分 ,然后 根据 维度 的 各 种 不 同属 性 在 现 有 数据 基础 上 进行 数据 建 模 , 构 
建 出 维度 计算 的 框架 ,最 后 通过 NEO 大 数据 一 体 机 提供 的 实时 计算 能 力 , 不 断 地 从 抓 取 到 
的 数据 中 进行 计算 ,从 而 得 到 一 个 不 断 更 新 的 指数 。 指 数 的 计算 过 程 包含 对 所 有 维度 的 实 
时 计算 ,而 且 需 要 在 秒 级 进行 更 新 ,这 对 计算 集群 的 性 能 是 一 大 考验 。NEO 大 数据 一 体 机 
很 好 地 完成 了 这 个 工作 ,并 基于 标准 化 的 实时 计算 能 力 提供 , 极 大 地 简化 了 数据 模型 构建 时 
间 和 工作 复杂 程度 。 

经 过 上 述 的 数据 采集 和 处 理 过 程 ,并 经 过 可 视 化 呈现 ,我 们 最 终 得 到 了 中 国 创 新 创业 大 
数据 版 图 。 在 经 过 细致 的 分 析 和 处 理 后 ,数据 已 经 展现 出 不 同 的 价值 ,从 最 初 混杂 的 价值 密 
度 较 低 的 数据 变 为 统一 的 直观 的 高 价值 密度 数据 ,同时 形成 数据 采集 ` 处 理 ` 分 析 、` 呈 现 的 完 
整 实时 链条 ,并 且 能 够 提供 给 使 用 者 进行 更 进一步 的 查看 和 分 析 , 形 成 统一 的 不 间断 的 数据 
服务 , 带 来 了 更 直观 、 更 深入 的 数据 体验 方式 。 


6.6.6 双 创 大 数据 版 图 的 意义 


清 数 双 创 大 数据 版 图 通过 展现 资金 人 才 、` 园 区 等 创业 要 素 在 行业 和 地 区 间 的 发 展 和 流 
动情 况 , 让 观察 者 能 深入 剖析 地 区 双 创 趋势 , 洞 见 技术 和 市 场 的 发 展 浪潮 ; 并 特别 提出 清 数 
双 创 指数 来 整体 反映 一 个 地 区 的 双 创 活跃 度 ,为 政府 和 企业 决策 提供 重要 的 参考 依据 。 目 
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前 清 数 中 国 创 新 创业 大 数据 版 图 已 经 正式 发 布 ,来 自 四 川 、 重 庆 、 云 南 、 江 苏 、 湖 南 、 西 藏 等 地 
的 政府 领导 、 投 资 机 构 和 创业 者 在 参观 后 都 表示 出 了 强烈 的 兴趣 ,一 致 认为 清 数 发 布 的 双 创 
大 数据 版 图 将 成 为 双 创 形 势 的 基本 指南 。 清 数 中 国 创 新 创业 大 数据 版 图 ,可 以 为 政府 、 企 
业 、 创 业者 提供 全 面 的 价值 参考 ,帮助 实现 双 创 数据 价值 的 转化 。 对 于 政府 企业 可 以 促进 
决策 优化 ,从 而 带 来 招商 引资 和 产业 发 展 的 机 会 ,对 于 创业 者 可 以 时 刻 关注 创业 动态 ,从 版 
图 中 发 现价 值 洼地 和 成 长 机 遇 。 


第 二 部 分 “数据 科学 和 数据 工程 


数据 科学 和 数据 工程 共 分 为 7 章 , 主 要 内 容 有 : 数据 科学 概念 ,研究 重要 角 
色 、 生 命 周期 管理 .数据 仓库 .数据 控 掘 分析 方法 `, 知 识 发 现 及 大 数据 处 理 平 台 ， 
通过 建立 科学 系统 的 数据 分 析 方 法 论 , 指 导数 据 工程 实践 ; 在 数据 工程 方面 , 重 
点 介绍 医疗 行业 大 数据 .环保 行业 大 数据 ,移动 社交 大 数据 .金融 行业 大 数据 和 


不 同 角度 ,总 体 上 全 面 解析 大 数据 应 用 的 多 个 方面 。 最 后 提出 大 数据 工程 保障 
体系 建设 ,包括 法 律 体 系 建设 、 标 准 体系 建设 .标准 化 大 数据 治理 体系 建设 、 技 
术 和 应 用 研究 .创新 平台 建设 等 。 该 部 分 章节 充分 体现 了 理论 性 、 科 学 性 、 创 新 
性 、 实 用 性 、 经 济 性 、 社 会 性 、 标 准 性 .保障 性 和 完整 性 ,形成 数据 科学 和 数据 工 
程 体 系 。 
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7.1 数据 科学 理论 基础 


知识 经 济 ( 基 于 知识 的 资本 ) 中 知识 的 增长 与 知识 的 数字 化 基本 上 是 同步 的 。 在 2012 
年 年 初 达 沃 斯 世界 经 济 论坛 上 ,一 份 题 为 (大 数据 ,大 影响 》 的 报告 宣称 ,数据 已 成 为 一 种 新 
的 经 济 资产 类 别 。 那 么 一 个 很 自然 的 推论 是 ,数据 的 贡献 就 应 该 被 合理 地 计量 。 然 而 目前 
传统 的 经 济 统计 方法 测量 的 对 象 主 要 是 商品 和 服务 ,并 不 能 很 好 地 适应 于 数据 。Mandel 
(2012) 认 为 ,在 数据 驱动 经 济 的 框架 下 ,各 种 数字 信息 的 生产 、 分 配 和 使 用 是 驱动 经 济 增长 
的 重要 因素 ,而 经 济 增长 .消费 .投资 和 贸易 等 宏观 指标 的 测量 低估 了 数据 的 贡献 。 已 故 图 
灵 奖 得 主格 雷 (Jim Gray) 在 20 世纪 90 年 代 中 期 曾 指 出 ,数据 库 技术 的 下 一 个 “大 数据 ” 挑 
战 将 会 来 自 科 学 领域 而 非 商 业 领 域 ,并 且 提 出 了 科学 研究 的 第 四 范式 是 数据 密集 型 科学 。 
在 (大 数据 时 代 的 历史 机 遇 : 产业 变革 与 数据 科学 》(2013) 一 书 中 , 鄂 维 南 院士 也 提 到 :“ 大 
数据 在 科学 领域 的 表现 是 数据 科学 的 兴起 ,数据 科学 将 成 为 科研 体系 中 的 重要 组 成 部 分 ,并 
逐渐 达到 与 物理 ,化 学 、 生 命 科 学 等 自然 科学 分 庭 抗 争 的 地 位 .” 然 而 数据 科学 目前 只 是 多 个 
相关 学 科 “ 拼 接 ” 起 来 的 一 个 新 兴学 科 , 尚 未 形成 完整 的 学 科 框 架 体 系 。 


7.1.1 数据 科学 概念 


大 数据 的 热潮 ,催生 了 一 门 新 的 学 科 即 数据 科学 。 数 据 科学 正 处 于 发 展 初期 ,是 一 门 不 
断 发 展 的 学 科 。 数 据 科学 的 核心 涉及 用 自动 化 的 方法 来 分 析 海 量 数据 ,并 从 中 提取 知识 。 
在 几乎 所 有 的 知识 发 现 领域 ,数据 科学 提供 了 一 种 强大 的 新 方法 来 探索 发 现 , 它 为 拥有 大 量 
数据 但 不 知 怎样 从 数据 中 提取 价值 的 公司 提供 了 一 种 新 的 见解 来 源 。 伴 随 着 这 种 自动 化 方 
法 的 发 展 ,数据 科学 正在 帮助 创造 新 的 科学 分 支 并 影响 着 社会 科学 和 人 文科 学 领域 。 数 据 
科学 融合 了 多 门 学 科 并 且 建 立 在 这 些 学 科 的 理论 和 技术 之 上 ,包括 数学 、 概 率 模型 统计 学 、 
机 器 学 习 、 数 据 仓库 、 可 视 化 等 。 在 实际 应 用 中 ,数据 科学 包括 数据 的 收集 、 清 洗 、 分 析 、 可 视 
化 以 及 数据 应 用 整个 迭代 过 程 , 最 终 帮 助 组 织 制定 正确 的 发 展 决策 。 数 据 科学 的 从 业者 称 
为 数据 科学 家 。 

数据 科学 目前 还 没有 明确 的 基础 理论 ,人 们 对 数据 科学 的 定义 各 不 相同 。 许 多 学 者 立 
足 各 自 的 视角 对 数据 科学 的 基础 理论 提出 了 不 同 的 观点 :例如 ,V. Dhar 将 数据 科学 定义 为 
研究 从 数据 中 提取 知识 的 一 门 学 科 。J. Leak 认为 数据 科学 其 关键 词 是 “科学 ”而 不 是 “ 数 
据 *。 复 旦 大 学 数据 科学 研究 中 心 的 朱 扬 和 勇 教授 则 认为 数据 科学 是 关于 数据 的 科学 或 者 研 
究 数据 的 科学 ,定义 为 : 研究 探索 Cyberspace 中 数据 界 奥秘 的 理论 、 方 法 和 技术 ,研究 的 对 





We 大 浆 构 > 载 据 普 现 上 数 据 基 和 
象 是 数据 界 中 的 数据 。 因 此 ,数据 科学 要 作为 一 门 独立 的 学 科 存在 ,还 需要 更 多 的 学 术 认同 
和 大 量 长 期 的 实践 积累 。 

数据 科学 的 广义 定义 为 研究 探索 Cyberspace 中 数据 界 (datanature) 奥秘 的 理论 ,方法 
和 技术 ,研究 的 对 象 是 数据 界 中 的 数据 。 数 据 科学 的 研究 对 象 是 Cyberspace 的 数据 ,是 新 
的 科学 。 数 据 科学 主要 有 两 个 内 涵 : 一 个 是 研究 数据 本 身 , 研 究 数据 的 各 种 类 型 .状态 、 属 
性 及 变化 形式 和 变化 规律 ; 另 一 个 是 为 自然 科学 和 社会 科学 研究 提供 一 种 新 的 方法 , 称 为 
科学 研究 的 数据 方法 ,其 目的 在 于 揭示 自然 界 和 人 类 行为 现象 和 规律 。 狭 义 定义 为 数据 科 
学 是 研究 数据 的 科学 。 它 利用 统计 学 知识 和 计算 机 技术 对 专业 领域 的 对 象 进行 现实 大 数据 
分 析 与 挖掘 及 其 他 方式 的 数据 处 理 , 以 使 组 织 获 取 更 大 的 经 济 效益 。 

目前 ,学 者 们 从 不 同 角度 对 数据 科学 给 出 了 一 种 定义 。 数 据 科学 是 一 门将 “现实 世界 ” 
映射 到 “数据 世界 ”之 后 ,在 “数据 层次 上 ”研究 “现实 世界 ”的 问题 ,并 根据 "数据 世界 ”的 分 析 
结果 ,对 “现实 世界 ”进行 预测 、 洞 见 、 解 释 或 决策 的 新 兴 科 学 ; 是 以 “数据 ?尤其 是 “大 数据 
为 研究 对 象 ,并 以 数据 统计 、 机 器 学 习 、 数 据 可 视 化 等 为 理论 基础 ,主要 研究 数据 预 处 理 , 数 
据 管理 .数据 计算 等 活动 的 交叉 性 学 科 ; 是 以 实现 “从 数据 到 信息 “从 数据 到 知识 ”和 (或 ) 
“从 数据 到 智慧 ”的 转化 为 主要 研究 目的 ,以 “数据 驱动 “数据 业务 化 “数据 洞 见 “ 数 据 产 品 
研发 ”和 (或 六 数据 生态 系统 建设 ?为 主要 研究 任务 的 独立 学 科 ; 是 以 “数据 时 代 ” 尤 其 是 “大 
数据 时 代 ” 面 临 的 新 挑战 .新 机 会 .新 思维 和 新 方法 为 核心 内 容 的 ,包括 新 的 理论 ,方法 、 模 
型 .技术 ,平台 .工具 .应 用 和 最 佳 实践 在 内 的 一 整套 知识 体系 。 

大 数据 (以 半 / 非 结构 型 数据 为 主 ) 使 基于 关系 型 数据 库 的 传统 分 析 工 具 很 难 发 挥 作用 ， 
或 者 说 传统 的 数据 库 和 统计 分 析 方 法 很 难 在 可 容忍 的 时 间 范 围 内 完成 存储 、 管 理 和 分 析 等 
一 系列 数据 处 理 过 程 ,为 了 有 效 地 处 理 这 类 数据 ,需要 一 种 新 的 范式 一 一 数据 科学 。 真 正 意 
义 上 的 现代 统计 学 是 从 处 理 小 数据 ,不 完美 的 实验 等 这 类 现实 问题 发 展 起 来 的 ,而 数据 科学 
是 因为 处 理 大 数据 这 类 现实 问题 而 兴起 的 。 因 此 数据 科学 的 研究 对 象 是 大 数据 ,而 统计 学 
以 结构 型 数据 为 研究 对 象 。 退 一 步 , 单 从 数量 级 来 讲 , 也 已 发 生 了 质变 。 对 于 结构 化 的 大 规 
模 数 据 , 传 统 的 方法 只 是 理论 上 的 (可 行 性 ) 或 不 经 济 的 (有 效 性 ) ,实践 中 还 需要 借助 数据 挖 
气 、 机 器 学 习 、 并 行 处 理 技术 等 现代 计算 技术 才能 实现 。 


7.1.2 数据 科学 预测 预警 分 析 


调查 发 现 ,如 今 有 超过 一 半 的 企业 领导 认识 到 他 们 无 法 获取 完成 自己 的 工作 所 需 的 数 
据 (Paul C. Zikopoulos. Chris Eaton. Dirk de Roos. Thomas Deutsch, George Lapis 所 著 
Understanding Big Data)。 企 业 的 数据 资产 以 滚雪球 似 的 速度 增长 ,尽管 无 论 从 硬件 设施 
还 是 软件 技术 ,企业 都 有 能 力 存储 这 些 数据 ,但 是 从 海量 的 、 多 样 的 和 实时 增长 的 数据 资产 
中 挖掘 “ 金 矿 ”, 为 企业 提供 精准 的 商业 洞察 ,提升 服务 水 平和 提高 商业 价值 .是 企业 所 面临 
的 挑战 。 

预测 是 在 时 间 序 列 和 周期 运行 基础 上 识别 模式 进而 在 相似 情景 下 外 推 , 应 用 模式 的 过 
程 。MIT 研究 的 显示 ,人 们 93% 的 行为 可 以 预测 。 我 知道 我 两 个 月 后 的 周 六 上 午 10:00， 
在 点 评 “ 网 络 的 效应 ” .或 者 "跨国 分 层 网 络 模 型 如 何 建立 ”的 研讨 班主 题 的 概率 超过 90%。 
而 人 是 一 个 很 强大 的 模式 识别 机 器 ,大 数据 集成 5V 数据 ,可 以 帮助 寻找 、 分 析 和 发 现 模式 ; 
这 是 ICT 技术 对 于 人 脑 的 高 级 模仿 ,因为 人 脑 就 是 一 个 典型 的 大 数据 处 理 装置 , IBM 
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Watson 以 其 在 “危险 边缘 ”节目 的 出 色 表 现 ,再 次 提供 了 人 类 与 机 器 模型 相互 模仿 、 相 互 学 
习 、 相 互 协同 的 典型 案例 。 发 现 模 式 是 预测 的 基础 ,大 数据 加 上 人 工 智能 算法 可 以 强化 “类 
人 ”的 模式 识别 能 力 ; 二 十 年 前 ,有 了 数据 库 和 数据 挖掘 ,人 们 对 于 啤酒 与 尿布 的 例子 津津 
乐 道 ,而 如 今 有 了 大 数据 ,或 许 它 会 帮助 我 们 厘清 "教授 .啤酒 炸 鸡 .韩剧 .世界 杯 ” 之 间 的 关 
系 , 可 以 洞察 球迷 的 行为 ,以 及 辨别 真 球迷 和 假球 迷 、 伪 球迷 的 区 别 。 

预测 性 分 析 涵 盖 了 各 种 统计 学 技术 ,包括 利用 预测 模型 .机 器 学 习 、 数 据 挖掘 等 技术 来 
分 析 当 前 及 历史 数据 ,从 而 对 未 来 或 其 他 不 确定 的 事件 进行 预测 。 在 商业 领域 ,预测 模型 从 
历史 数据 探索 规律 ,以 识别 可 能 的 风险 和 商机 。 预 测 性 分 析 是 数据 挖掘 技术 的 延伸 技术 , 它 
主要 用 来 对 未 来 情况 进行 预测 ,以 帮助 决策 层 做 出 更 加 正确 的 决定 。 

(1) 流 数 据 分 析 为 业务 提供 实时 决策 响应 。 流 数据 是 那些 随 着 时 间 推 移 而 无 限 增长 的 
数据 集合 , 流 数据 分 析 用 于 识别 数据 流 中 的 复杂 事件 ,并 提供 实时 的 分 析 报告 及 决策 相应 。 
例如 ,使 用 回归 模型 分 析 购 买 的 交易 数据 ,分 析 用 户 购买 行为 ,从 而 判定 欺诈 性 消费 行为 , 规 
避 用 户 损失 。 

(2) 非 结 构 化 数据 的 预测 分 析 ,探索 新 的 业务 价值 。 常 见 的 非 结构 化 数据 包括 Web 日 
志 , 企 业 知识 库 、 网 络 文字 、 图 形 .视频 及 声 频 等 更 加 难以 解析 的 数据 源 , 非 结构 化 数据 分 析 
用 于 从 非 结构 化 的 数据 源 中 通过 语义 分 析 和 词法 分 析 技 术 提 取 关 键 词 , 并 采用 聚 类 关联 或 
其 他 算法 预测 分 析 ,探索 新 的 业务 价值 。 例 如 ,与 情 分 析 通 过 文本 挖掘 提取 结构 化 客户 与 情 
及 “用 户 ”, 并 通过 算法 分 析 , 识 别 联系 人 、 关 注 者 及 其 关系 ,形成 社交 网 络 。 

模式 识别 是 指 通 过 计算 机 用 数学 技术 方法 来 研究 模式 的 自动 处 理 和 判读 。 我 们 把 环境 
与 客体 统称 为 “模式 ”"。 随 着 计算 机 技术 的 发 展 , 人 类 有 可 能 研究 复杂 的 信息 处 理 过 程 。 信 
息 处 理 过 程 的 一 个 重要 形式 是 生命 体 对 环境 及 客体 的 识别 。 对 人 类 来 说 ,特别 重要 的 是 对 
光学 信息 (通过 视觉 器 官 来 获得 ) 和 声学 信息 (通过 听觉 器 官 来 获得 ) 的 识别 。 这 是 模式 识别 
的 两 个 重要 方面 。 

(3) 结构 化 数据 的 深度 挖掘 ,深入 剖析 业务 价值 。 结 构 化 数据 是 数据 仓库 或 其 他 操作 
性 数据 库 中 的 数据 ,这 些 数据 用 于 传统 OLAP 和 商业 智能 等 ,生产 的 报告 用 于 说 明 发 生 了 
什么 ,以 及 了 解 过 去 和 现状 。 但 是 随 着 业务 需求 的 发 展 ,我 们 更 需要 知道 为 什么 发 生 , 将 来 
会 发 生 什么 ,甚至 最 佳 结果 是 什么 ,用 于 揭示 隐藏 的 关联 关系 及 趋势 ,这 就 需要 我 们 对 这 些 
数据 进行 深度 的 挖掘 ,生成 预测 模型 。 例 如 ,可 以 通过 预测 分 析 , 提供 精 准 营 销 , 促 进 企 业 
发 展 。 


7.1.3 商业 智能 与 数据 科学 


每 当 提 及 “数据 科学 ”, 人 们 总 是 会 联想 到 另外 一 个 含义 似乎 类 似 , 却 又 无 法 清楚 区 分 的 
名 词 一 一 商业 智能 (Business Intelligence,BI) 。 在 此 有 必要 通过 对 比 来 区 分 这 两 个 概念 。 

商业 智能 致力 于 使 用 一 组 统一 的 衡量 标准 来 评估 企业 过 去 的 绩效 指标 ,并 用 于 后 续 的 
业务 规划 。 这 包括 建立 关键 绩效 指标 (Key Performance Indicator.KPI) .用 于 表示 评估 业 
务 的 最 基本 的 衡量 标准 。 测 量 尺度 和 关键 绩效 指标 通常 都 是 在 联机 分 析 处 理 模 式 (OLAP 
Schema) 中 定义 ,使 得 商业 智能 报表 的 内 容 能 够 基于 已 定义 的 衡量 标准 。 

商业 智能 的 典型 技术 和 数据 类 型 包括 : 

(1) 标准 和 满足 特定 需求 的 报表 信息 面板 警报 、 查 询 及 细节 ; 


169 


(7 大 数 据 . 攻 节理 64x 和 

(2) 解构 化 数据 .传统 数据 源 、 易 操作 的 数据 集 。 

数据 科学 可 以 简单 地 理解 为 预测 分 析 和 数据 挖掘 ,是 统计 分 析 和 机 器 学 习 技 术 的 结合 ， 
用 于 获取 数据 中 的 推断 和 洞察 力 。 相 关 方法 包括 回归 分 析 、 关 联 规则 (比如 市 场 购物 篮 分 
析 )、 优 化 技术 和 仿真 (比如 蒙特 卡 罗 仿 真 用 于 构建 场景 结果 )。 

数据 科学 的 典型 技术 和 数据 类 型 包括 : 

(1) 优化 模型 .预测 模型 .预报 .统计 分 析 ; 

(2) 结构 化 / 非 结构 化 数据 .多 种 类 型 数据 源 .超大 数据 集 。 

商业 智能 和 数据 科学 都 是 企业 所 需要 的 ,用 于 应 对 不 断 出 现 的 各 种 商业 挑战 。 如 图 7-1 
所 示 ,展示 了 商业 智能 和 数据 科学 的 不 同 定 位 和 范畴 。 由 图 可 以 看 出 ,商业 智能 更 关注 于 过 
去 的 旧 数 据 , 其 结果 的 商业 价值 相对 较 低 ; 而 数据 科学 更 着 眼 于 新 数据 和 对 未 来 的 预测 ,其 
商业 价值 相对 较 高 。 但 是 我 们 也 看 到 ,这 两 个 区 域 使 用 虚线 分 割 。 换 言 之 ,它们 并 不 存在 一 
个 明确 的 划分 ,只 是 各 有 偏重 而 已 。 


高 







商业 价值 | “、、、、 


、 





过 去 时 间 未 来 
图 7-1 商业 智能 与 数据 科学 


数据 科学 是 大 数据 发 展 的 理论 支持 .不仅 要 解决 大 数据 的 存储 和 管理 ,还 要 实现 预测 式 
分 析 。 数 据 科学 是 统计 学 的 论证 ,真正 利用 到 统计 学 的 力量 。 只 有 这 样 才能 够 从 数据 中 获 
得 经 验 和 未 来 方向 的 指导 。 但 是 ,数据 科学 并 非 简单 的 统计 学 ,需要 新 的 应 用 、 新 的 平台 
新 的 数据 观 ,而 不 仅 是 现 有 的 传统 的 基础 架构 与 软件 平台 。 


7.2 数据 科学 研究 的 重要 角色 
大 数据 的 出 现 ,催生 了 新 的 数据 生态 系统 。 为 了 提供 有 效 的 数据 服务 , 它 需 要 三 种 典型 
的 角色 。 表 7-1 介绍 了 这 三 种 角色 ,以 及 每 种 角色 具有 代表 性 的 专业 人 员 举 例 。 
表 7-1 数据 科学 研究 重要 角色 
角 色 描 述 专业 人 员 举 例 








通过 定量 学 科 ( 例 如 数学 、 统 计 学 、 机 器 学 

习 ) 高 等 训练 的 人 员 ; 精通 技术 ,具有 非常 强 | 数据 科学 家 、 统 计 学 家 、 经 济 学 
的 分 析 技 能 和 处 理 原始 数据 、 非 结构 化 数据 | 家 ,数学 家 

的 综合 能 力 ,熟悉 大 规模 复杂 分 析 技 术 


深度 分 析 人 才 
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角 色 描 述 专业 人 员 举例 

具有 统计 学 和 /或 机 器 学 习 基 本 知识 的 人 | 金融 分 析 师 .市场 研究 分 析 师 、 生 
数据 理解 专业 人 员 员 : 知道 如 何 定义 使 用 先进 分 析 方法 可 以 解 | 命 科 学 家 、 运 维 经 理 , 业 务 和 职能 
决 的 关键 问题 经 理 

提供 专业 技术 用 于 支持 分 析 型 项 目的 人 员 : | 计算 机 程序 员 ,数据库 管理 员 、 计 
技能 包括 计算 机 程序 设计 和 数据 库 管理 算 机 系统 分 析 师 








技术 和 数据 的 使 用 者 








典型 的 分 析 型 项 目 需 要 多 种 角色 。 但 数据 科学 家 是 自身 结合 了 多 种 以 前 被 分 离 的 技 
能 ,成 为 一 个 单一 的 角色 。 以 前 是 不 同 的 人 用 于 一 个 项 目的 各 个 方面 ,比如 ,有 的 人 去 应 对 
业务 线 上 的 终端 用 户 ,另外 的 具有 技术 和 定量 专长 的 人 去 解决 分 析 问 题 。 数 据 科学 家 就 是 
这 些 方面 的 综合 体 , 有 助 于 提供 连续 性 的 分 析 过 程 。 


7.2.1 数据 科学 家 


数据 科学 家 (Data Scientist) 能 够 提供 用 于 分 析 技 术 ,数据 建 模 的 学 科 专 业 知 识 ,针对 给 
定 的 业务 问题 使 用 有 效 的 分 析 技 术 , 并 确保 达到 整体 分 析 目 标 。 数 据 科 学 家 是 有 着 开阔 视 
时 的 复合 型 人 才 , 他 们 既 有 坚实 的 数据 科学 基础 ,如 数学 、 统 计 学 、 计 算 机 学 等 ,又 具备 广泛 
的 业务 知识 和 经 验 。 数 据 科 学 家 通过 精深 的 技术 和 专业 知识 在 某 些 学 科 领 域 解决 复杂 的 数 
据 问题 ,从 而 制定 出 适合 不 同 决策 人 员 的 大 数据 计划 和 策略 。 数 据 科 学 家 负责 为 复杂 的 业 
务 问题 建 模 、 发 现 业务 洞察 力 并 找到 新 的 商业 机 遇 。 

1. 数据 科学 家 需要 具备 的 主要 能 力 和 行为 特征 

(1) 定量 技能 : 比如 数学 或 统计 学 技能 。 

(2) 技术 才能 : 比如 软件 工程 .机 器 学 习 和 编程 能 力 。 

(3) 善于 怀疑 : 对 于 数据 科学 家 来 说 ,能 够 采用 批判 的 眼光 来 审视 自己 的 工作 ,而 不 是 
采用 片面 的 求 同 方式 ,这 是 很 重要 的 。 

(4) 好 奇 心 和 创造 力 : 数据 科学 家 必须 对 数据 充满 激情 ,并 能 够 找到 创新 的 方式 来 解 
决 问题 和 描述 信息 。 

(5) 善于 沟通 和 合作 : 即使 具有 很 强 的 定量 和 工程 技能 也 是 不 够 的 。 数 据 科学 家 必须 
能 够 采用 清晰 的 方式 表达 出 项 目 中 的 商业 价值 ,并 能 与 项 目 发 起 人 (Sponsor) 和 项 目 干系 人 
(Stakeholder) 合 作 工 作 , 从 而 让 其 在 项 目 中 产生 共鸣 。 

2. 数据 科学 家 的 关键 活动 

(1) 将 商业 挑战 构建 成 数据 分 析 问 题 ; 

(2) 在 大 数据 上 设计 、 实 现 和 部 署 统计 模型 和 数据 挖掘 方法 ; 

(3) 获取 有 利于 引领 可 操作 建议 的 洞察 力 。 

寻找 技能 熟练 的 人 才 是 与 大 数据 分 析 相 关 的 主要 挑战 之 一 。 成 功 的 大 数据 分 析 计 划 要 
求 IT 部 门 、 业 务 用 户 等 众多 关键 角色 和 数据 科学 家 之 间 紧 密 协作 ,以 选择 和 实施 可 以 正确 
解决 业务 问题 的 分 析 。 
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7.2.2 数据 科学 与 工程 相关 角色 


通常 在 项 目 中 会 有 各 种 角色 和 主要 项 目 干系 人 。 每 个 角色 都 在 分 析 型 项 目 中 起 到 各 自 
不 同 的 作用 。 如 图 7-2 所 示 列 出 了 7 个 角色 ,实际 中 可 根据 项 目的 工作 范围 ,组织 结 构 和 参 
与 者 的 技能 要 求 ,选择 适当 的 项 目 参与 角色 人 选 。 


Busim Intellli 
Business User Project Sponsor Project Manager er 





Data Englneer Data Sclentist 


Database 
Administrator (DBA| 
图 7-2 数据 科学 与 工程 中 的 关键 角色 


(1) 业务 用 户 (Business User): 那些 从 最 终结 果 中 受益 的 人 。 可 以 充当 项 目 团 队 的 顾 
问 , 并 提供 建议 ,例如 ,如 何 评估 最 终结 果 的 价值 和 如 何 实 施 它 们 。 

(2) 项 目 发 起 人 (Project Sponsor): 负责 项 目的 启动 。 提 供 项 目的 推动 力 和 核心 业务 
问题 。 通 常 提供 资金 ,并 判定 来 自 工作 团队 的 最 终 输 出 的 价值 的 程度 。 

(3) 项 目 经 理 (Project Manager) : 确保 以 期 待 的 质量 按时 达到 关键 里 程 碑 和 目标 。 

(4) 商业 智能 分 析 师 (Business Intelligence Analyst): 提供 业务 领域 专业 知识 ,对 数 
据 , 关 键 绩效 指标 .关键 衡量 标准 和 报表 视角 的 商业 智能 有 着 深入 的 理解 。 

(5) 数据 工程 师 (Data Engineer): 利用 深入 的 技术 技能 ,协助 优化 SQL 查询 ,用 于 数 
据 管理 .提取 和 支持 分 析 沙 盒 摄取 数据 。 

(6) 数据 库 管理 员 (Data Base Administrator,DBA) : 提供 和 配置 数据 库 环境 ,用 以 支 
持 工作 团队 的 分 析 需 求 。 

(7) 数据 科学 家 (Data Scientist) : 提供 用 于 分 析 技 术 、 数 据 建 模 的 学 科 专 业 知 识 , 针 对 
给 定 的 业务 问题 使 用 有 效 的 分 析 技 术 , 并 确保 达到 整体 分 析 目 标 。 

数据 科学 与 工程 是 一 个 新 兴 领 域 .同时 数据 科学 家 是 拥有 特殊 技能 的 全 新 专业 人 员 。 
数据 科学 家 负责 为 复杂 的 业务 问题 建 模 、 发 现 业 务 洞察 力 并 找到 新 的 商业 机 遇 。 


7.3 大 数据 生命 周期 管理 方法 论 


首先 ,需要 了 解 一 下 使 用 这 样 一 个 数据 分 析 生 命 周期 模型 的 价值 何在 。 很 多 问题 看 上 
去 相当 复杂 难 解 ,但 是 一 个 定义 良好 的 流程 能 够 帮助 数据 科学 家 将 复杂 的 问题 分 解 成 更 容 
易 处 理 的 过 程 。 使 用 一 个 好 的 流程 进行 分 析 是 极其 重要 的 ,因为 它 既 有 助 于 实现 全 面 可 重 
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复 实施 的 分 析 方 法 ,又 可 以 让 数据 科学 家 把 必要 的 精力 尽早 地 放 到 那些 可 以 掌握 问题 重点 
的 步骤 中 。 人 们 经 常 不 愿意 花 太 多 时 间 去 做 大 量 的 计划 .调研 或 者 问题 解决 等 工作 ,而 是 急 
于 开始 收集 和 分 析 数 据 。 这 样 做 很 可 能 出 现 的 结果 是 : 项 目 成 员 在 中 途 发 现 正在 尝试 解决 
的 问题 和 项 目 发 起 人 的 目的 截然 不 同 或 者 与 之 前 的 沟通 结果 不 一 样 。 创 建 并 文档 化 一 个 流 
程 将 有 助 于 展示 项 目的 分 析 结 果 的 严谨 性 。 当 我 们 谈 及 发 现 的 结果 时 ,这 将 为 项 目 提供 额 
外 的 可 信和 度 。 这 个 流程 还 使 我 们 能 够 去 教 别 人 如 何 使 用 这 些 方法 和 分 析 , 以 使 得 它 是 可 以 
在 下 个 季度 、 下 一 年 或 者 被 新 的 员工 重复 使 用 的 。 

虽然 一 个 定义 良好 的 流程 有 助 于 指导 我 们 完成 任何 一 个 分 析 项 目 , 然 而 需要 特别 声明 
的 是 : 本 节 将 着 重 介绍 的 数据 分 析 生 命 周期 模型 更 适合 数据 科学 项 目 。 与 着 眼 于 获取 关键 
绩效 指标 或 者 实现 信息 系统 其 他 功能 项 目 相 比 ,数据 科学 项 目 还 是 会 有 些 相 似 的 步骤 。 


7.3.1 数据 分 析 模 型 概述 


数据 分 析 生 命 周 期 模型 描述 了 一 种 针对 端 到 端 分 析 过 程 ( 从 商业 理解 到 项 目 完成 ) 的 最 
佳 实践 方法 。 并 且 , 其 中 一 些 用 于 改进 模型 的 步骤 来 源 于 数据 分 析 和 决策 科学 范畴 中 已 有 
的 方法 。 这 些 已 有 的 方法 提供 了 流程 中 的 一 部 分 或 者 使 用 不 同 术 语 的 类 似 概念 。 一 些 参 考 
过 的 流程 如 下 。 

科学 方法 (Scientific Method) ,虽然 已 经 有 上 百年 历史 了 ,但 是 依然 提供 了 严谨 的 框架 ， 
用 于 思考 问题 并 将 其 解构 为 多 个 主要 部 分 。 

跨行 业 数 据 挖 掘 标准 流程 (Cross Industry Standard Process for Data Mining, CRISP- 
DM) 提 供 了 一 些 有 用 的 考虑 分 析 型 问题 的 方法 。 

Tom Davenport 在 他 的 《工作 中 的 分 析 ) 一 书 中 提出 的 DELTA 框架 。 

Doug Hubbard 的 应 用 信息 经 济 学 (Applied Information Economics,AIE) 方 法 。 

MAD(Magnetic, Agile,Deep) 涉 及 数据 分 析 生 命 周 期 模型 里 阶段 4 至 阶段 5 中 关注 的 
建立 模型 和 模型 评估 。 

目前 ,已 经 有 很 多 成 熟 的 方法 模型 ,为 数据 挖掘 实际 应 用 提供 了 指导 模型 ,其 中 ， 
CRISP-DM(Cross-industry Standard Process for Data Mining .跨行 业 数 据 挖掘 标准 流程 )， 
为 20 世纪 90 年 代 由 全 球 领先 的 数据 挖掘 专家 SPSS 联合 NCR 公司 、 戴 姆 勒 - 克 莱 斯 勒 以 
及 OHRA 共同 推出 的 全 球 首 个 数据 挖掘 行业 方法 论 ,并 成 立 了 CRISP-DM 专家 组 (Special 
Interest Group,SIG) 。SIG 拥有 来 自 世 界 各 地 的 两 百 多 名 成 员 , 并 获得 了 来 自 广泛 领域 内 
对 数据 挖掘 感 兴趣 的 从 业者 的 帮助 ,包括 数据 集 的 提供 者 和 管理 顾问 。 从 技术 原理 来 讲 ， 
CRISP-DM 还 不 是 一 个 成 熟 的 理论 ,还 没有 形成 一 个 实践 性 的 、 成 功 的 、 被 广泛 采纳 的 标 
准 。CRISP-DM 的 专家 组 SIG 一 直 在 为 建立 CRISP-DM 方法 学 而 努力 ,不 断 地 在 数据 挖掘 
项 目的 实践 当中 积累 经 验 ,他 们 想 要 建立 一 个 跨行 业 的 公开 的 数据 挖掘 标准 ,并 不 断 发 展 
CRISP-DM。 

CRISP-DM 方法 论 的 推出 确实 是 及 时 的 \ 有 价值 的 ,其 设计 背后 有 着 广泛 的 经 验 支持 ， 
以 保证 该 模型 能 够 适应 任何 数据 挖掘 应 用 ,包括 欺诈 发 现 、 信 用 风险 评估 、 税 户 保持 、 流 失 分 
析 和 税 户 赢 回 。 数 据 分 析 生 命 周期 由 6 个 阶段 组 成 。 如 图 7-3 所 示 , 展 示 了 这 一 数据 挖掘 
过 程 的 各 个 阶段 ,这 些 阶 段 之 间 的 顺序 并 不 固定 ,在 不 同 阶 段 之 间 来 回 反复 往往 是 非常 有 必 
要 的 。 究 竞 下 一 步 要 执行 哪个 阶段 或 者 哪 一 个 特定 的 任务 ,都 取决 于 每 一 个 阶段 的 结果 。 
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图 中 的 箭头 表明 了 阶段 之 间 最 重要 和 最 频繁 的 依赖 关系 。 图 中 最 外 层 的 这 个 循环 表明 了 数 
据 挖掘 本 身 的 循环 性 质 。 经 过 一 个 具体 的 数据 挖掘 项 目 得 到 了 某 项 解决 措施 或 方法 并 加 以 
展开 ,并 不 代表 数据 挖掘 本 身 已 经 结束 。 从 这 一 数据 挖掘 过 程 以 及 解决 措施 展开 的 过 程 中 
所 吸取 的 经 验 、 教 训 , 又 引发 了 新 的 ,通常 是 更 加 焦点 的 商业 问题 。 接 下 来 的 数据 挖掘 过 程 
将 会 从 过 去 的 项 目 经 验 中 获 利 。 

CRISP-DM 模型 定义 了 6 个 过 程 , 分 别 是 : 商业 理解 .数据 理解 .数据 准备 、 建 立 模型 、 
模型 评估 、 结 果 发 布 。 





图 7-3 大 数据 分 析 生命 周期 模型 


下 面 主 要 介绍 常用 的 数据 挖掘 的 生命 周期 模型 CRISP-DM ,主要 包括 6 个 过 程 (www. 
crisp-dm. org) 。 

1， 商业 理解 

商业 理解 阶段 的 主要 任务 是 理解 项 目的 背景 , 即 商业 愿景 和 商业 目标 ,把 要 实现 的 商业 
目标 转化 为 相对 应 的 数据 挖掘 的 问题 ,并 制定 完成 目标 的 工作 计划 。 从 业务 的 角度 上 ,了 解 
项 目的 要 求 和 最 终 的 目的 是 什么 ,并 将 这 些 目的 与 数据 挖掘 的 定义 和 结果 结合 起 来 。 

2. 数据 理解 

数据 理解 阶段 是 着 手 对 源 数据 的 收集 ,鉴别 数据 的 质量 问题 ,从 数据 中 发 现 隐 藏 的 信息 或 
探测 腾 想 的 数据 子 集 。 理 解数 据 , 包 括 数据 规模 数据 列 的 特性 等 ,并 对 可 用 的 数据 进行 评估 。 

3. 数据 准备 

数据 准备 阶段 是 对 源 数据 进行 采集 清洗、 转换 ,以 满足 数据 建 模 要 求 。 在 源 数 据 的 基 
础 上 运用 建 模 工具 建立 最 终 的 数据 集 。 数 据 准备 可 能 重复 多 次 ,其 主要 任务 是 使 用 建 模 工 
具 来 传输 和 清洗 数据 ,包括 表 、 记 录 和 属性 等 。 

数据 预 处 理 阶段 覆盖 了 从 最 初 的 源 数 据 构造 最 终 数 据 集合 的 所 有 活动 ,最 终 的 数据 集 
将 会 作为 数据 挖掘 模型 的 输入 或 者 样本 数据 。 数 据 预 处 理 阶 段 的 某 个 任务 很 可 能 要 执行 多 
次 ,并 且 这 些 任 务 的 执行 顺序 并 不 是 固定 的 。 数 据 预 处 理 包括 表 、 记 录 、 属 性 的 选择 ,以 及 为 
了 根据 数据 挖掘 算法 的 特点 和 要 求 对 数据 进行 的 清洗 、 转 换 和 整理 。 对 于 数据 挖掘 来 说 , 数 
据 质 量 对 挖掘 效果 的 影响 非常 大 ,甚至 可 能 导致 错误 的 预测 结果 。 因 此 ,在 任何 时 候 都 不 要 


第 7 章 数据 科学 理论 与 工具 


忽视 数据 的 质量 ,一 般 的 数据 挖掘 过 程 中 大 约 有 一 半 的 时 间 用 于 数据 预 处 理 。 

这 一 阶段 包括 的 功能 节点 有 选择 属性 集 、 异 常数 据 处 理 \ 缺 失 值 处 理 、 数 据 标准 化 、 数 据 
类 型 转化 、 度 量 尺 寸 设 置 增加 新 列 、 排 序 、 加 权 处 理 、 计 数 、 分 类 汇总 ,数据 分 组 ,抽样 、 选 择 
数据 集 等 。 这 些 功 能 节点 基本 上 可 以 满足 用 户 对 数据 进行 预 处 理 的 需要 。 经 过 数据 预 处 
理 , 用 户 可 以 选择 与 数据 挖掘 目标 相关 的 、 高 质量 的 、 适 当 容 量 的 数据 ,包括 属性 ( 列 ) 和 记录 
( 行 ) 的 选择 。 在 这 个 阶段 ,用 户 使 用 数据 理解 阶段 得 到 的 数据 质量 问题 解决 方案 对 数据 进 
行 处 理 。 

4. 建立 模型 

建立 模型 阶段 ,多 种 建 模 技术 被 选择 和 应 用 ,它们 的 参数 被 校对 到 最 理想 的 数值 。 一 些 
技术 解决 同样 的 数据 挖掘 问题 ,一 些 技术 需要 特定 的 数据 格式 ,因此 建立 模型 阶段 有 时 也 需 
要 重新 进行 数据 准备 。 通 过 数据 挖掘 算法 建立 挖掘 模型 。 通 常 ,通过 设置 参数 运行 模型 ,再 
对 这 些 参数 进行 微调 或 回 到 数据 准备 阶段 以 便 执行 所 选 模型 所 需要 的 操作 , 建 模 时 通常 会 
执行 多 次 迭代 , 才 会 达到 最 终 效 果 。 

5. 模型 评估 

模型 评估 阶段 ,将 从 数据 分 析 的 观点 建立 一 个 或 一 些 高 质量 的 模型 。 在 配置 这 些 模 型 
前 ,最 重要 的 就 是 对 已 经 建立 的 模型 进行 彻底 的 评估 ,并 回顾 建造 模型 的 每 一 个 步骤 ,确定 
商业 目标 被 完全 地 达到 。 关 键 目标 是 确定 一 些 重 要 的 商业 问题 是 否 被 充分 地 考虑 ,最 终 决 
定数 据 挖掘 结果 的 使 用 目的 是 否 达到 。 对 建立 的 模型 进行 评估 ,根据 在 商业 理解 中 定义 的 
挖掘 目标 进行 评定 .以 确保 满足 业务 需求 。 

6. 结果 发 布 

结果 发 布 阶段 ,根据 用 户 需 要 可 能 只 是 简单 地 创建 一 个 报表 ,也 可 能 是 实现 一 个 重复 
的 、 复 杂 的 数据 挖掘 过 程 。 在 大 多 数 的 情况 下 ,模型 应 该 由 用 户 ,而 不 是 数据 分 析 师 来 配置 。 
然而 即使 分 析 师 不 配置 模型 ,对 他 来 说 重要 的 是 让 用 户 预 先 理解 所 要 执行 的 配置 动作 ,目的 
是 让 用 户 使 用 创建 的 模型 。 数 据 挖掘 的 结果 和 过 程 发 布 成 可 读 文本 形式 ,并 通过 数据 挖掘 
结果 进行 改善 。 


7.3.2 数据 分 析 模 型 流程 框架 


数据 分 析 流 程 框架 也 就 是 数据 分 析 生 命 周 期 模型 (Data Analytics Lifecycle) ,如 图 7-4 
所 示 。 该 框架 描述 了 数据 分 析 生 命 周期 模型 各 个 阶段 的 流程 执行 和 工作 任务 。 


7.3.3 数据 分 析 模 型 创新 案例 


以 下 结合 具体 的 案例 一 一 全 球 创新 网 络 分 析 (Global Innovative Network and Analytics 
GINA) 详 细 分 析 数 据 分 析 模 型 。 该 项 目 致力 于 分 析 企 业内 全 球 范围 的 创新 活动 数据 ,帮助 
数据 科学 家 理解 这 些 创新 活动 的 深层 含义 ,从 而 促进 全 球 范围 的 创新 活动 更 有 借鉴 意义 。 
GINA 正 是 遵循 数据 模型 分 析 框 架 展 开 的 , 接 下 来 详细 介绍 GINA 在 各 个 分 析 阶 段 所 进行 
的 活动 。 

全 球 创新 网 络 和 分 析 (GINA) 团 队 是 一 组 位 于 世界 各 地 高 级 技术 专家 的 卓越 中 心 
(COE) 。 这 个 团队 的 章程 是 让 员工 跨越 全 球 COEs 来 推动 创新 、 研 究 和 大 学 合作 。2012 年 ,一 
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图 7-4 数据 分 析 模 型 框架 


个 新 聘 的 首席 信息 官 想 改进 这 些 活动 ,并 提供 一 种 跟踪 和 分 析 相 关 信 息 的 机 制 。 此 外 ,这 个 
团队 希望 创建 更 强大 的 机 制 来 捕获 其 非 正式 对 话 的 结果 与 学 术 界 或 其 他 组 织 中 的 其 他 思想 
领袖 ,从 中 进行 数据 挖掘 以 获得 知识 发 现 。 

1. 商业 理解 

在 GINA 项 目的 开始 阶段 ,团队 要 识别 数据 源 。 虽 然 GINA 团队 成 员 对 工程 技术 方面 
较 熟 悉 , 但 还 是 有 一 些 数据 和 想法 需要 探索 ,还 缺乏 一 个 正式 的 团队 来 执行 这 些 分 析 。 在 咨 
询 了 包括 巴 布 森 学 院 (Babson College) 的 知名 分 析 专 家 Tom Davenport、 麻 省 理工 学 院 集体 
智慧 专家 兼 协同 创新 网 络 (Collaborative Innovation Networks，CoIN ) 创始 人 Peter Gloor 
等 专家 后 ,团队 决定 在 全 球 范围 内 寻找 志愿 者 来 推广 工作 。 

GINA 团队 认为 将 组 织 全 球 团队 成 员 来 分 享 想法 ,并 能 够 实现 知识 共享 。 它 计划 创建 
一 个 数据 存储 库 包含 结构 化 和 非 结 构 化 数据 , 主要 实现 以 下 三 个 目标 。 

(1) 存储 正式 和 非 正 式 数据 。 

(2) 跟踪 全 球技 术 专 家 的 研究 。 

(3) 挖掘 数据 的 模式 和 洞察 .以 改善 团队 的 运营 和 战略 。 

GINA 案例 研究 提供 了 一 个 团队 如 何 应 用 数据 分 析 生 命 周期 进行 分 析 的 示例 。 创 新 通 
常 是 一 个 难以 衡量 的 概念 ,这 个 团队 想 通 过 使 用 先进 的 分 析 方 法 来 确定 公司 内 部 优秀 的 创 





这 里 是 一 个 工作 团队 的 各 种 角色 的 分 工 情况 。 
(1) 业务 用 户 ,项目 赞助 商 , 项 目 经 理 : CTO 办 公 室 副 主 席 。 
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(2) 商业 智能 分 析 师 : IT 代表 。 

(3) 数据 工程 师 和 数据 库 管 理 员 (DBA): IT 代表 。 

(4) 数据 科学 家 : 杰出 工程 师 , 也 开发 了 GINA 中 显示 的 社会 图 表 案 例 分 析 。 

GINA 团队 开发 的 10 个 主要 假设 如 下 : 

假设 1; 在 不 同 地 理 区 域 的 创新 活动 可 以 映射 到 企业 的 战略 方向 。 

假设 2: 当 全 球 知识 转移 作为 构想 交付 过 程 的 一 部 分 时 ,交付 想法 所 需 的 时 间 长 度 
减少 。 

假设 3: 参与 全 球 知识 转移 的 创新 者 比 不 参与 全 球 知识 转移 的 创新 者 更 快 地 提供 想法 。 

假设 4; 可 以 分 析 和 评估 创新 者 提交 的 意见 是 否 有 可 能 获得 资金 。 

假设 5: 可 以 跨 地 理 区 域 测量 和 比较 特定 主题 的 知识 发 现 和 增长 。 

假设 6: 知识 转移 活动 可 以 识别 不 同 地 区 的 研究 特定 超 长 者 。 

假设 7: 战略 性 的 企业 主题 可 以 映射 到 地 理 区 域 。 

假设 8: 频繁 的 知识 扩展 和 转移 事件 减少 了 从 想法 生成 公司 资产 所 需 的 时 间 。 

假设 9: 使 用 谱系 图 可 以 揭示 知识 扩展 和 转移 产生 公司 资产 的 情况 。 

假设 10: 新 兴 研 究 主题 可 以 分 类 并 映射 到 特定 的 创意 者 、 创 新 者 、 超 长 者 和 资产 。 

GINA(IHs) 可 以 分 为 两 类 : 

(1) 对 当前 发 生 的 事情 进行 描述 性 分 析 , 以 进一步 创造 ,协作 和 资产 生成 。 

(2) 预测 分 析 , 为 执行 管理 层 建 议 未 来 投资 的 地 方 。 

2. 数据 理解 

项 目 发 起 的 方法 是 利用 社交 媒体 和 博客 加 速 全 球 创新 和 研究 数据 的 收集 ,并 激励 全 球 
各 地 的 “志愿 者 "数据 科学 家 团队 。 首 先 要 组 建 一 个 项 目 团队 ,成 员 要 满足 有 能 力 且 有 充分 
时 间 去 处 理 那些 复杂 问题 。 数 据 科 学 家 往往 对 数据 充满 激情 ,项 目 发 起 人 能 够 利用 这 些 热 
情 的 人 才 , 以 创造 性 的 方式 完成 具有 挑战 性 的 工作 。 

该 项 目的 数据 分 为 以 下 两 大 类 。 

第 一 类 是 由 发 起 公司 的 内 部 创新 竞赛 提出 的 五 年 的 想法 ,被 称 为 创新 路 线 图 (以 前 称 为 
创新 展示 )。 创 新 路 线 图 是 一 个 正式 的 有 机 的 创新 过 程 ,来 自 全 球 的 员工 提交 的 想法 ,然后 
审查 和 判断 。 选 择 最 好 的 想法 进一步 用 化 。 因 此 ,数据 是 结构 化 数据 的 混合 ,例如 想法 计 
数 、 提 交 日 期 ; 发 明 人 姓名 和 非 结 构 化 内 容 , 例 如 想法 本 身 的 文本 描述 。 

第 二 类 数据 包括 来 自 世界 各 地 的 创新 和 研究 活动 的 时 间 和 注释 。 这 也 表示 结构 化 和 非 
结构 化 数据 的 混合 。 结 构 化 数据 包括 诸如 日 期 ,名 称 和 地 理 位 置 的 属性 。 非 结构 化 文档 包 
含 表示 公司 内 知识 增长 和 转移 的 丰富 数据 的 “who, what, when, where” 信 息 。 这 种 类 型 的 
信息 通常 存储 在 各 个 不 同 研究 团队 中 几乎 没有 可 见 性 的 业务 孤岛 中 。 

3. 数据 准备 

团队 与 其 IT 部 门 合作 ,建立 一 个 新 的 分 析 沙 盒 来 存储 和 实验 数据 。 在 数据 探索 过 程 
中 ,数据 科学 家 和 数据 工程 师 开 始 注意 到 某 些 数据 需要 调节 和 正常 化 。 此 外 ,团队 意识 到 几 
个 失踪 数据 集 对 于 测试 一 些 分 析 假 设 至 关 重要 。 

当 团 队 探索 数据 时 ,他 们 很 快 就 意识 到 ,如 果 数 据 的 质量 不 够 好 或 者 没有 足够 的 高 质量 
数据 ,就 无 法 执行 生命 周期 过 程 中 的 后 续 步 又。 因此 :确定 项 目 需要 什么 级 别 的 数据 质量 和 
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大 数 醋 坟 扫 管理 局 守 抬 并 入 
清洁 度 非常 重要 。 在 GINA 案例 中 ,团队 发 现 许 多 研究 者 和 大 学 人 员 的 名 字 被 拼 错 ,或 者 
在 数据 存储 中 的 首尾 有 空格 。 这 些 看 似 数据 中 的 小 问题 都 必须 在 本 阶段 解决 ,以 便 在 随后 
阶段 更 好 地 分 析 和 聚合 数据 。 

为 了 达到 模型 的 输入 数据 要 求 ,需要 对 数据 进行 转换 ,包括 生成 衍生 变量 .一 致 化 标准 
化 等 。 

1) 数据 清洗 

现实 世界 的 数据 一 般 是 不 完整 的 .有 噪声 的 和 不 一 致 的 。 数 据 清理 例 程 试图 填充 缺失 
的 值 ,光滑 噪声 并 识别 离 群 点 ,纠正 数据 中 的 不 一 致 。 

(1) 缺失 值 处 理 。@ 忽 略 元 组 : 当 缺 少 类 标号 时 通常 这 样 做。 除非 元 组 有 多 个 属性 缺 
少 值 ,和 否则 该 方法 不 是 很 有 效 。@ 人 工 填 写 缺失 值 : 一 般 情况 下 ,该 方法 很 费时 。@ 使 用 一 
个 全 局 常量 填充 缺失 值 : 将 缺失 值 用 同一 个 常数 (如 Unknown 或 一 ce ) 替 换 。 如 果 缺 失 值 
都 用 Unknown 替换 , 则 挖掘 程序 可 能 误 认为 它们 形成 了 一 个 有 趣 的 概念 ,因为 它们 都 具有 
相同 的 值 "Unknown”。 因 此 此 方法 虽然 简单 但 不 可 靠 。 团 使 用 属性 的 均值 填充 缺失 值 。 
例如 ,假定 顾客 的 平均 收入 为 56 000 美元 , 则 使 用 该 值 蔡 换 income 中 的 缺失 值 。@ 使 用 与 
给 定 元 组 属 同一 类 的 所 有 样本 的 属性 均值 ,例如 ,将 顾客 按 credit_risk 分 类 , 则 用 具有 相同 
信用 度 给 定 元 组 的 顾客 的 平均 收入 替换 income 中 的 缺失 值 。@ 使 用 最 可 能 的 值 填充 缺失 
值 。 可 以 用 回归 、 使 用 贝 叶 斯 形式 化 的 基于 推理 的 工具 或 决策 树 归 纳 确 定 。 例 如 ,利用 数据 
集中 其 他 顾客 的 属性 ,可 以 构造 一 棵 决策 树 来 预测 income 的 缺失 值 。 

(2) 噪声 数据 处 理 。 噪 声 是 被 测量 的 变量 的 随机 误差 或 方差 。 给 定 一 个 数值 属性 (如 
price) ,怎样 才能 光滑 数据 ,去 掉 噪 声 ? 下 面 介 绍 数据 光滑 技术 。@ 分 箱 : 分 箱 方法 通过 考 
察 数据 的 "近邻 ”来 光滑 有 序数 据 的 值 。 有 序 值 分 布 到 一 些 桶 或 箱 中 。 由 于 分 箱 方法 考察 近 
邻 的 值 ,因此 是 对 数据 进行 局 部 光滑 。 例 如 ,frequencly 排序 后 数据 (频次 ) : 4,8,15,21,21， 
24,25,28,34 划分 为 (等 频 ) 箱 一 一 箱 1: 4.8.15; 箱 2: 21,21,24; 箱 3: 25,28,34。 用 箱 
均值 光滑 : 箱 1 :9,9,9; 箱 2: 22,22,22; 箱 3: 29,29,29。 用 箱 边 界 光滑 : 箱 1 :4,4,15; 
箱 2: 21,21,24; 箱 3: 25,25,34。@@ 回 归 : 可 以 用 一 个 函数 (如 回归 函数 ) 拟 合 数据 来 光滑 
数据 。@ 聚 类 : 可 以 通过 聚 类 检测 离 群 点 ,将 类 似 的 值 组 织 成 群 或 徐 。 直 观 地 , 落 在 簇 集合 
之 外 的 值 视 为 离 群 点 。 

(3) 数据 不 一 致 的 处 理 。 作 为 一 位 数据 分 析 人 员 , 应 当 警 惕 编码 使 用 的 不 一 致 问题 和 
数据 表示 的 不 一 致 问题 (如 日 期 *2004/12/25” 和 “25/12/2004”)。 字 段 过 载 是 另 一 种 错误 
源 ,通常 是 由 如 下 原因 导致 : 开发 者 将 新 属性 的 定义 挤 压 到 已 经 定义 的 属性 的 未 使 用 (位 ) 
部 分 (例如 ,使 用 一 个 属性 未 使 用 的 位 ,该 属性 取 值 已 经 使 用 了 32 位 中 的 31 位 )。 

2) 数据 集成 

数据 分 析 任 务 多 半 涉 及 数据 集成 。 数 据 集成 是 指 将 多 个 数据 源 中 的 数据 合并 并 存放 到 
一 个 一 致 的 数据 存储 (如 数据 仓库 ) 中 。 这 些 数据 源 可 能 包括 多 个 数据 库 、 数 据 立 方 体 或 一 
般 文件 。 在 数据 集成 时 ,有 许多 问题 需要 考虑 。 模 式 集成 和 对 象 匹 配 可 能 需要 技巧 。 来 自 
多 个 信息 源 的 现实 世界 的 等 价 实体 如 何 才能 匹配 ? 这 涉及 实体 识别 问题 。 例 如 ,数据 分 析 
者 或 计算 机 如 何 才 能 确信 一 个 数据 库 中 的 innovator_id 和 另 一 个 数据 库 中 的 inno_number 
指 的 是 相同 的 属性 ?每 个 属性 的 元 数据 包括 名 字 、 含 义 、 数 据 类 型 和 属性 的 允许 取 值 范围 ， 
以 及 处 理 空白 、. 零 或 null 值 的 空 值 规则 。 这 样 的 元 数据 可 以 用 来 帮助 避免 模式 集成 的 错 
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误 。 元 数据 还 可 以 用 来 帮助 变换 数据 (例如 ,pay type 的 数据 编码 在 一 个 数据 库 中 可 以 是 
“H” 和 ”“*S?”, 而 在 另 一 个 数据 库 中 是 1 和 2)。 因 此 ,这 一 步 也 与 前 面 介绍 的 数据 清理 有 关 。 
另外 , 宛 余 也 是 一 个 重要 问题 。 一 个 属性 可 能 是 宛 余 的 ,如 果 它 能 由 另 一 个 或 另 一 组 属性 导 
出 。 属 性 或 维 命名 的 不 一 致 也 可 能 导致 结果 数据 集中 的 元 余 。 有 些 元 余 可 以 被 相关 分 析 检 
测 到 。 注 意 , 相 关 并 不 意味 因果 关系 。 也 就 是 说 ,如 果 A 和 B 是 相关 的 ,这 并 不 意味 着 人 A 导 
致 B 或 了 导致 A。 例 如 ,在 分 析 创 新 想法 统计 数据 库 时 ,可 能 发 现 一 个 地 区 的 大 学 数 与 研 
究 机 构 数 是 相关 的 ,但 这 并 不 意味 一 个 导致 另 一 个 。 实 际 上 ,二 者 必然 地 关联 到 第 三 个 属 
性 : 创新 想法 数 。 对 于 分 类 (离散 ) 数 据 ,两 个 属性 A 和 B 之 间 的 相关 联系 可 以 通过 卡 方 检 
验 发 现 。 除 了 检测 属性 间 的 宛 余 外 ,还 应 当 在 元 组 级 检测 重复 。 去 规范 化 表 的 使 用 是 数据 
宛 余 的 另 一 个 来 源 。 数 据 集成 的 第 三 个 重要 问题 是 数据 值 冲突 的 检测 与 处 理 。 例 如 ,对 于 现 
实 世界 的 同一 实体 ,来 自 不 同 数据 源 的 属性 值 可 能 不 同 。 这 可 能 是 因为 表示 方法 .比例 或 编码 
不 同 。 例 如 ,重量 属性 可 能 在 一 个 系统 中 以 公制 单位 存放 ,而 在 另 一 个 系统 中 以 英制 单位 存 
放 。 对 于 创新 者 ,不 同 国家 的 收入 可 能 涉及 不 同 货币 ,而 且 可 能 涉及 不 同 的 福利 和 税 。 

3) 数据 变换 

数据 变换 是 指 将 数据 转换 或 统一 成 适合 于 挖掘 的 形式 。 

(1) 数据 泛 化 : 使 用 概念 分 层 , 用 高 层 概念 蔡 换 低层 或 “原始 数据。 例如 ,分 类 的 属 
性 ,如 街道 ,可 以 泛 化 为 较 高 层 的 概念 ,如 城市 或 国家 。 类 似 地 ,数值 属性 如 年 龄 ,可 以 映射 
到 较 高 层 概念 ,如 青年 .中 年 和 老年 。 

(2) 规范 化 : 将 属性 数据 按 比 例 缩放 ,使 之 落 入 一 个 小 的 特定 区 间 。 大 致 可 分 为 三 种 ， 
最 小 最 大 规范 化 ,z-score 规范 化 和 按 小 数 定 标 规范 化 。 

(3) 属性 构造 : 可 以 构造 新 的 属性 并 添加 到 属性 集中 ,以 帮助 挖掘 过 程 。 例 如 ,可 能 和希 
望 根据 属性 height 和 width 添加 属性 area。 通 过 属性 构造 可 以 发 现 关 于 数据 属性 间 联 系 的 
丢失 信息 ,这 对 知识 发 现 是 有 用 的 。 

4) 数据 归 约 

(1) 数据 立方 体 聚 集 : 聚集 操作 用 于 数据 立方 体 结构 中 的 数据 。 

(2) 属性 子 集 选择 : 通过 删除 不 相关 或 元 余 的 属性 (或 维 ) 减 小 数据 集 。 属 性 子 集 选择 
的 目标 是 找 出 最 小 属性 集 , 使 得 数据 类 的 概率 分 布 尽 可 能 地 接近 使 用 所 有 属性 得 到 的 原 分 
布 。 对 于 属性 子 集 选择 ,一 般 使 用 压缩 搜索 空间 的 启发 式 算法 。 通 常 ,这 些 方法 是 贪心 算 
法 ,在 搜索 属性 空间 时 ,总 是 做 看 上 去 当时 最 佳 的 选择 。 策 略 是 做 局 部 最 优选 择 , 期 望 由 此 
导致 全 局 最 优 解 。 在 实践 中 ,这 种 贪心 算法 是 有 效 的 ,并 可 以 允 近 最 优 解 。Q@ 逐 步 向 前 选 
择 : 该 过 程 由 空 届 性 集 作为 归 约 集 开始 ,确定 原 属性 集中 最 好 的 属性 ,并 将 它 添加 到 归 约 集 
中 。 在 其 后 的 每 一 次 迭代 步 ,将 剩 下 的 原 属 性 集中 最 好 的 属性 添加 到 该 集合 中 。 四 逐步 向 
后 删除 : 该 过 程 由 整个 属性 集 开 始 。 在 每 一 步 , 删 除 尚 在 属性 集中 最 差 的 属性 。 四 向 前 选 
择 和 向 后 删除 的 结合 。@ 决 策 树 归纳 : 决策 树 算 法 :如 ID3、C4.5 和 CART 最 初 是 用 于 分 
类 的 。 决 策 树 归纳 构造 一 个 类 似 于 流程 图 的 结构 ,其 中 每 个 内 部 ( 非 树 叶 ) 节 点 表示 一 个 属 
性 的 测试 ,每 个 分 支 对 应 于 测试 的 一 个 输出 ; 每 个 外 部 (树叶 ) 节 点 表示 一 个 类 预测 。 在 每 
个 节点 ,算法 选择 最 好 的 属性 ,将 数据 划分 成 类 。 

(3) 维度 归 约 : 使 用 编码 机 制 减 小 数据 集 的 规模 ,例如 ,小 波 变换 和 主 成 分 分 析 。 

(4) 数值 归 约 : 用 替代 的 、 较 小 的 数据 表示 替换 或 估计 数据 ,如 参数 模型 (只 需要 存放 











179 


180 


大 数据 .数据 管理 与 数据 工程 


模型 参数 ,不 是 实际 数据 ) 或 非 参 数 方法 :如 聚 类 、 抽 样 和 使 用 直方 图 。 

(5) 离散 化 和 概念 分 层 产 生 : 属性 的 原始 数据 值 用 区 间 值 或 较 高 层 的 概念 蔡 换 。 数 据 
离散 化 是 一 种 数据 归 约 形式 ,对 于 概念 分 层 的 自动 产生 是 有 用 的 。 离 散 化 和 概念 分 层 产生 
是 数据 挖掘 强 有 力 的 工具 ,允许 挖掘 多 个 抽象 层 的 数据 。 很 重要 的 是 ,用 于 数据 归 约 的 计算 
时 间 不 应 当 超过 或 “抵消 ”对 归 约 数据 挖掘 节省 的 时 间 。 

4. 建立 模型 

在 GINA 项 目 中 ,对 于 大 多 数 数据 集 , 使 用 社交 网 络 分 析 技术 似乎 是 可 行 的 。 在 其 他 
情况 下 ,很 难 提出 适当 的 由 于 缺乏 数据 ,测试 假设 的 方法 。 在 一 个 案例 (IH9) 中 ,小 组 决定 
启动 纵向 研究 开始 跟踪 关于 人 们 发 展 新 知识 分 子 的 数据 点 属性 。 这 个 数据 收集 将 使 团队 能 
够 测试 未 来 的 以 下 两 个 想法 。 

。 IH8: 频繁 的 知识 扩展 和 传输 事件 减少 了 所 需 的 时 间 从 想法 生成 公司 资产 。 

。 IH9: 沿袭 地 图 可 以 揭示 知识 扩展 和 转移 没有 (或 没有 ) 结 果 在 公司 资产 。 

对 于 提出 的 纵向 研究 ,团队 需要 为 研究 确立 目标 标准 。 具 体 来 说 , 它 需 要 确定 一 个 成 功 
的 想法 的 终极 目标 已 经 穿越 整个 旅程 。 

与 研究 范围 相关 的 参数 包括 以 下 考虑 ， 

(1) 确定 实现 此 目标 的 正确 里 程 碑 。 

(2) 跟踪 人 们 如 何 将 想法 从 每 个 里 程 碑 向 目标 移动 。 

(3) 使 用 几 种 不 同 的 方法 (取决 于 如 何 收集 和 组 合 数 据 ) 来 比较 时 间 和 结果 。 这些 可 以 
是 简单 的 t 检 验 或 可 能 涉及 不 同类 型 的 分 类 算法 。 

在 模型 构建 阶段 , 数据 科学 家 们 会 综合 考虑 业务 需求 精度 、 数 据 情 况 、 花 费 成 本 等 因 
素 , 选 择 最 合适 的 模型 。 通 过 知识 转移 活动 的 分 析 能 识别 出 不 同 地 区 内 特定 研究 方面 的 边 
界 跨越 者 。 下 面 将 详细 介绍 边界 跨越 者 识别 的 模型 构建 ,构建 过 程 中 首先 分 析 项 目的 目的 ， 
通过 多 个 模型 的 事前 假设 和 事后 运行 ,然后 通过 后 续 的 模型 评估 ,进行 优化 .调整 ,以 求 建成 
最 合适 的 模型 。 

(1) 寻找 边界 跨越 者 。 在 数据 准备 阶段 ,GINA 项 目 组 将 使 用 社交 网 络 的 数据 来 证 明 
这 一 假设 。 图 7-5 就 是 数据 科学 家 John Cardente 生成 的 社交 网 络 图 ,这 是 个 有 名 的 “ 爱 尔 
兰 蝴蝶 "案例 。 这 个 模型 的 输入 条 件 是 来 自 世 界 各 地 的 员工 在 企业 想法 展示 竞赛 提交 的 所 
有 想法 ,每 个 圆圈 代表 了 一 个 提交 过 想法 的 员工 ,圆圈 之 间 的 连 线 代表 了 两 个 员工 参与 一 起 
提交 了 某 个 想法 。 圆 圈 的 大 小 取决 于 该 员工 参与 提交 想法 的 数量 , 浅 色 的 圆圈 表示 该 员工 
提交 的 某 个 想法 入 围 了 当年 竞赛 的 决赛 阶段 。 

图 7-5 中 有 5 个 虚线 圈 出 的 部 分 要 特别 关注 。GINA 项 目 组 研究 了 这 些 虚线 椭圆 中 的 
圆圈 (代表 想法 提交 者 和 参与 者 ) ,发 现 这 些 椭圆 的 其 中 一 个 里 ,所 有 的 人 都 是 爱尔兰 人 。 继 
续 跟 踪 他 们 其 中 的 几 个 人 ,发 现 他 们 在 一 起 提出 想法 , 源 于 他 们 都 参与 了 企业 在 爱尔兰 开展 
的 有 针对 性 的 培训 。 

数据 科学 家 John Cardente 通过 模型 验证 .并 将 企业 想法 展示 竞赛 活动 中 的 数据 以 数 
值 的 形式 通过 可 视 化 显示 出 来 。 为 了 验证 企业 想法 展示 竞赛 活动 数据 中 的 知识 转移 活 
动能 否 识别 出 假说 中 提 到 的 边界 跨越 者 ,John Cardente 做 了 进一步 的 可 视 化 ,如 图 7-6 
所 示 。 
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图 7-6 上 面 的 白色 圆 形 代 表 以 色 列 员工 , 深 色 圆 点 代表 美国 员工 。 两 个 四 边 形 圆 点 代 
表 法 国 的 员工 。 孤 独 的 在 左边 的 同心 圆 点 代表 来 自 澳大利亚 的 员工 。 浅 色 圆 点 是 在 整个 实 
验 中 的 最 大 集群 之 一 ,代表 了 中 国 的 员工 。 

GINA 将 具有 白色 圆圈 的 大 圆 点 称 为 “枢纽 >。 这 些 人 具有 大 量 连 线 和 很 高 的 中 介 度 
(Betweenness) 。 在 社会 网 络 分 析 指 标 中 ,中 介 度 用 于 衡量 节点 对 于 整个 图 连通 性 的 重要 
度 。 在 图 7-6 中 ,如 果 一 些 人 中 介 度 高 , 则 说 明 这 些 人 具有 更 大 的 影响 力 。 图 示 中 显示 了 中 
国 的 5 大 “中 介 度 ”的 排名 ,五 分 之 二 中 国 员工 的 中 介 度 得 分 远 远 高 于 其 他 地 区 。 

(2) 验证 创新 卓越 者 。 在 图 7-6 中 ,有 一 名 员工 的 中 介 度 得 分 为 578, 远 远 高 于 图 中 其 
他 员工 的 中 介 度 值 ,那么 高 中 介 度 的 他 是 不 是 就 是 创新 卓越 者 呢 ? 通过 模型 验证 ,输入 他 的 
名 字 查 询 结果 如 下 。 

@ 2011 年 ,他 参加 了 在 希腊 举行 的 SIGMOD 会 议 。 

@ 他 访问 了 企业 在 法 国 的 业务 部 门 ,与 一 些 员 工 见 了 面 。 

@ 他 在 一 次 自 备 餐 会 上 讲述 了 他 对 SIGMOD 会 议 自己 的 看 法 ,这 个 会 议 的 参与 者 包 
括 : 三 名 俄罗斯 员工 ,一 名 埃及 员工 ,一 名 爱尔兰 员工 ,一 名 印度 员工 ,三 名 美国 员工 和 一 名 
以 色 列 员工 。 

@ 2012 年 ,他 参加 了 在 加 州 举行 的 SDM 会 议 。 

@ 在 这 次 旅程 中 他 拜访 了 Greenplum 和 VMware 的 创新 者 。 

@ 在 同一 次 旅程 中 ,他 参加 了 CTO 评议 会 ,将 自己 和 其 他 两 个 研究 员 介绍 给 了 数 十 个 
企业 内 的 其 他 研究 员 。 

文 个 结果 跟 我 们 假设 的 部 分 内 容 是 基本 吻合 的 ,通过 数据 和 分 析 模 型 GINA 确实 识别 
出 了 边界 跨越 者 。 

5. 模型 评估 

在 第 6 阶段 ,GINA 团队 发 现 了 几 种 方法 来 剔除 分 析 结 果 并 确定 最 有 影响 力 的 结果 和 
相关 发 现 。 这 个 项 目 被 认为 能 成 功 识别 边界 跨越 者 。 因 此 ,数据 科学 家 开展 了 纵向 研究 , 开 
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始 收 集 更 长 时 间 的 数据 并 跟踪 创新 结果 ,不 断 完善 数据 和 修改 模型 ,以 期 达到 研究 目标 。 
GINA 项 目 促 进 知 识 共享 相关 的 创新 和 研究 人 员 跨 越 公 司 内 部 和 外 部 的 多 个 领域 ,并 且 与 
大 学 建立 关系 联合 研究 关于 数据 科学 和 大 数据 。 此 外 ,该 项 目 以 有 限 的 预算 ,利用 高 水 平 、 
杰出 的 工程 师 和 数据 科学 家 自愿 完成 。 

该 项 目的 一 个 重要 发 现 是 ,在 爱尔兰 创新 者 密度 不 成 比例 。 该 项 目 在 每 年 的 创新 大 赛 
中 ,创新 成 果 将 为 公司 带 来 很 大 价值 。 当 看 2011 年 的 数据 时 ,15% 的 获奖 者 来 自爱 尔 兰 。 
经 过 进一步 研究 ,证 明了 爱尔兰 的 COE 通过 外 部 顾问 接受 了 创新 方面 的 重点 培训 。 爱 尔 兰 
COE 提出 了 比 过 去 更 多 更 好 的 创新 想法 。 这 在 过 去 用 传统 的 方法 简直 是 不 可 能 做 到 的 。 
应 用 社交 网 络 分 析 使 得 GINA 团队 能 够 在 网 络 中 找到 一 大 批 杰出 的 人 才 。 这 些 发 现 是 通 
过 内 部 共享 的 演讲 和 会 议 ,并 通过 社交 媒体 和 博客 等 来 推广 的 。 

6. 结果 发 布 

GINA 团队 经 过 分 析 完 整数 据 分 析 生命 周期 模型 不 难 发 现 : 在 分 析 沙 盒 中 对 创新 活动 
的 各 种 会 议 纪要 .记录 和 演讲 文稿 进行 各 种 分 析 流程 之 后 ,我 们 可 以 对 企业 创新 文化 的 深刻 
理解 。 项 目 进 入 第 7 阶段 ,GINA 将 会 把 实验 模型 进行 正式 发 布 , 先 进行 小 规模 生产 系统 部 
署 试 运行 ,同时 熟悉 和 检验 生产 环境 各 方面 的 性 能 参数 ,以 便 在 完全 部 署 前 做 好 各 项 准备 。 

项 目的 主要 发 现 如 下 。 

(1) GINA 未 来 需要 更 多 数据 ,这 就 需要 一 个 营销 推广 计划 以 说 服 员工 提交 在 全 球 范 
围 内 他 们 进行 的 创新 和 研究 活动 。 

(2) 这 些 数据 是 敏感 的 ,团队 需要 考虑 与 数据 相关 的 安全 性 和 隐私 性 ,例如 ,哪些 人 可 
以 运行 模型 以 及 哪些 人 可 以 查看 结果 。 

(3) 除了 运行 模型 之 外 ,还 需要 提供 数据 搜索 功能 。 

(4) 部 署 后 需要 一 种 机 制 来 不 断 评 估 模 型 。 评 估 是 这 个 阶段 的 主要 目标 之 一 ,也 是 根 
据 需要 定义 一 个 重新 训练 模型 的 过 程 。 

表 7-2 列 出 了 GINA 团队 研究 的 分 析 计 划 。 项 目 主要 实现 了 三 个 重要 的 成 果 。 

表 7-2 GINA 团队 研究 分 析 计 划 











项 目 分 析 计 划 GINA 案例 研究 
商业 理解 跟踪 全 球 知识 增长 ,确保 有 效 的 知识 转移 ,并 迅速 将 其 转换 为 公司 资产 。 执 行 这 
三 个 要 素 应 加 快 创新 
初始 假设 不 同 地 理 区 域 的 知识 转移 的 增加 提高 了 想法 交付 的 效率 
数据 准备 5 年 的 创新 思想 提交 和 历史 ; 6 个 月 来 自 全 球 创新 和 研究 活动 的 文字 笔记 





模型 规划 分 析 方 法 | 社交 网 络 分 析 , 社 交 图 , 聚 类 和 回归 分 析 

(1) 确定 隐藏 的 、 高 价值 的 创新 者 ,并 找 出 知识 共享 的 方法 
知识 发 现 (2) 大 学 研究 项 目的 投资 决策 

(3) 创建 工具 ,帮助 提交 者 用 创新 思维 改进 推荐 系统 








创新 是 每 个 公司 都 希望 推广 的 想法 ,但 是 很 难 衡量 创新 或 确定 增加 创新 的 方法 。 这 个 
项 目 从 评估 的 角度 探讨 了 这 个 问题 ,以 识别 创新 网 络 中 的 创新 卓越 者 和 有 影响 力 的 人 才 。 

这 个 阶段 是 非常 重要 的 ,一 方面 要 检验 是 否 符合 预期 并 能 在 此 基础 上 提出 更 合理 和 更 
高 的 目标 ; 男 一 方面 ,要 检验 整个 流程 过 程 是 否 完善 ,是 否 有 更 理想 的 数据 和 更 好 的 分 析 方 
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法 来 完成 目标 。 


7.3.4 数据 分 析 工 具 


在 大 数据 分 析 领 域 主要 包括 模式 识别 .数据 挖掘 、 预 测 性 分 析 和 可 视 化 分 析 4 大 类 , 见 
表 7-3。 
表 7-3 数据 分 析 工具 比较 












































操作 编程 
主导 优势 Eviews SPSS SAS Stata MATLAB R 
时 间 序 列 分 析 | 多 天 筑 起 罗 | 数 据 管理 及 挖 握 | 站 -本 损 | 数 从 分 抽 | 算法 及 绘图 
i 市 场 调研 ,医药 
通信 ,政府 , 金 | 市场 
政府 , 金 | 研发 ,能 源 公共 | 学 术 研究 , 医 
应 用 领域 | 经 济 可 ,制造 ,医药 ,| 可 为 "能 计 全 蔷 | 经济 如 并 天 入。 | 交 估 全 让 
教育 等 | 
理 等 
,| 推断 及 多 元 - 统计 预测 , | 统计 分 析 , 数 
处 理 功能 | 推 项 统计 | 村 批量 数据 集 re et 
界面 设计 | 直观 ,可 视 化 | 简易, 可视化 “| 语言 机 械 规范 化 ee 偏向 底层 | 语言 丰富 灵活 
数据 安全 | 软件 稳定 。 “| 大 数据 易 丢 失 | 软件 稳定 软件 稳定 | 软件 稳定 。 | 软件 稳定 
低 , 不 适宜 大 - - | 极 适合 大 量 
处 理 效率 | 高 ,稳定 。 | 估 高 ,稳定 高 ,稳定 。 | 高 ,稳定 。 | 投 关 
结合 形式 | SS AS， | Exeal Excel, 文 本 文本 所 有 所 有 
1. SAS 


SAS 全 称 为 Statistics Analysis System, 最 早 由 北 卡 罗 来 纳 大 学 的 两 位 生物 统计 学 研 
究 生 编制 ,并 于 1976 年 成 立 了 SAS 软件 研究 所 ,正式 推出 了 SAS 软件 。SAS 是 用 于 决策 
支持 的 大 型 集成 信息 系统 ,是 由 大 型 计算 机 系统 发 展 而 来 ,其 核心 操作 方式 就 是 程序 驱动 ,经 
过 多 年 的 发 展 , 现 在 已 成 为 一 套 完整 的 计算 机 语言 ,其 用 户 界 面 也 充分 体现 了 这 一 特点 。 它 采 
用 MDI( 多 文档 界面 ), 用 户 在 PGM 视窗 中 输入 程序 ,分 析 结 果 以 文本 的 形式 在 OUTPUT 视 
窗 中 输出 。 使 用 程序 方式 ,用 户 可 以 完成 所 有 需要 做 的 工作 ,包括 统计 分 析 、 预 测 、 建 模 和 模 
拟 抽 样 等 。 但 是 ,这 使 得 初学 者 在 使 用 SAS 时 必须 要 学 习 SAS 语言 ,入 门 比较 困难 。 

目前 ,SAS 已 在 全 球 一 百 多 个 国家 和 地 区 拥有 两 万 九 千 多 个 客户 群 ,直接 用 户 超过 300 
万 人 。 在 我 国 ,国家 信息 中 心 、 国 家 统计 局 .卫生 部 ,中 国 科学 院 等 都 是 SAS 的 大 用 户 。 
SAS 已 被 广泛 应 用 于 政府 行政 管理 ,科研 、 教 育 , 生 产 和 金融 等 不 同 领域 ,并 且 发 挥 着 傅 来 
愈 重要 的 作用 。 

2. 数据 挖掘 分 析 工 具 

Clementine 是 ISL(Integral Solutions Limited) 公 司 开发 的 数据 挖掘 工具 平台 。1999 
年 ,SPSS 公司 收购 了 ISL 公司 .对 Clementine 产品 进行 重新 整合 和 开发 ,现在 Clementine 
已 经 成 为 SPSS 公司 的 又 一 亮点 。 
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Clementine 的 图 形 化 操作 界面 如 图 7-7 所 示 , 它 使 得 分 析 人 员 能 够 可 视 化 数据 挖掘 过 
程 的 每 一 步 。 通 过 与 数据 流 的 交互 ,分 析 人 员 和 业务 人 员 可 以 合作 ,将 业务 知识 融入 到 数 
据 挖掘 过 程 中 。 这 样 数 据 挖掘 人 员 就 可 以 把 注意 力 集中 于 知识 发 现 ,而 不 是 陷 人 技术 任 
务 , 例 如 写 代 码 , 所 以 他 们 可 以 尝试 更 多 的 分 析 思 路 ,更 深入 地 探索 数据 ,揭示 更 多 的 隐 
含 关 系 。 


Ele Et Inset View Inols BuperNode yancow Hen 





已 





图 7-7 Clementine 操作 工具 


使 用 全 面 整合 到 Clementine 的 Text Mining ,可 以 从 任何 类 型 的 文本 一 一 例如 ,内 部 报 
告 ` 呼 叫 中 心 记录 、 客 户 的 邮件 .媒体 或 者 杂志 文章 .博客 等 中 抽取 内 容 和 评论 。 使 用 
WebMining for Clementine, 可 以 发 现 访 问 者 网 上 行为 模式 。 直 接 获 取 Dimension 产品 的 调 
查 数据 ,可 以 把 人 口 统计 信息 .态度 和 行为 信息 用 于 模型 一 -更 深入 地 理解 客户 。 
Clementine 还 提供 大 量 的 应 用 模板 ,例如 : 

(1) CRM CAT 一 一 针对 客户 的 获取 和 增长 ,提高 反馈 率 并 减少 客户 流失 ; 

(2) Web CAT 一 一 单 击 顺序 分 析 和 访问 行为 分 析 ; 

(3) cTelco CAT 一 一 客户 保持 和 增加 交叉 销售 ; 

(4) Crime CAT 一 一 犯罪 分 析 及 其 特征 描述 .确定 事故 高 发 区 ,联合 研究 相关 犯罪 行为 ; 

(5) Fraud CAT 一 一 发 现金 融 交 易 和 索赔 中 的 欺诈 和 异常 行为 ; 

(6) Microarray CAT 一 一 研究 和 疾病 相关 的 基因 序列 并 找到 治愈 手段 。 

3. R 语言 工具 

R 语言 是 一 种 自由 软件 编程 语言 与 操作 环境 , 主要 用 于 统计 分 析 、 绘 图 ,数据 挖掘 。R 
本 来 是 由 来 自 新 西 兰 奥克兰 大 学 的 Ross Ihaka 和 Robert Gentlema 开发 的 ,主要 是 以 命令 
行 操 作 , 同 时 有 人 开发 了 几 种 图 形 用 户 界面 。 现 在 由 “R 开发 核心 团队 ”负责 开发 。R 语言 
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分 析 工 具 如 图 7-8 所 示 。 


人 





有 dmenaPiangm x jamondsx 一 口 。 wenepaee History 

Bwensm a £* SD rntine Brn | E00 BB sme Spon ote ff OM 

Tibrary(o9plet2) De 

Vie(dianonds) | 53940 obs. of 10 variables 
suesary(dianonds) 

i 0.7979 

SR neces eons amonds Scarat) ,4) character [8] 

clarity <- levels(dianondssclarity) 

aplot (price, carat, data » dianonds) 

plot fprices carat, = dianonds, colorzclarity, 
priees 2 


main » "Dimwond Pricing™) » 
ots (Plot, title » thest text(size » 22)) 





S Prom 机 Epo Smt foerm 


Diamond Pricing 


1st Qu.: 4.720 


> summary(diamondsgprice) 
Min, 1st Qu. Medi 
26 50 2404 393 


> clarfty <- Vevels(diarondssclarity) 

> qplot(price, carat, data » diamonds) 

> qplot(price, carat, data = diawonds, color=clarity, xlab = 
“price”, ylab = “Carat”, wain = “Diamond pricing") » 








opts(plot- title = these text(size = 22)) 
“| 








图 7-8 R 语 言 分 析 工 具 


(1) R 内 置 多 种 统计 学 及 数字 分 析 功 能 。R 的 功能 也 可 以 通过 安装 包 增 强 。 因 为 具有 
S 的 血缘 ,R 比 其 他 统计 学 或 数学 专用 的 编程 语言 有 更 强 的 面向 对 象 (面向 对 象 程序 设计 ) 
功能 。 

(2) R 的 另 一 强项 是 绘图 功能 ,制图 具有 印刷 的 素质 ,也 可 加 入 数学 符号 。 

(3) 虽然 R 主要 用 于 统计 分 析 或 者 开发 统计 相关 的 软件 ,但 也 有 人 将 其 用 于 和 矩阵 计算 。 
其 分 析 速 度 可 媲美 专用 于 矩阵 计算 的 自由 软件 GNU Octave 和 商业 软件 MATLAB。 

4. Stata 


Stata 是 Statacorp 于 1985 年 开发 出 来 的 统计 程序 ,在 全 球 范围 内 被 广泛 应 用 于 企业 和 
学 术 机 构 中 。 许 多 使 用 者 工作 在 研究 领域 .特别 是 在 经 济 学 、 社 会 学 ,政治 学 及 流行 病 学 
领域 。 

作为 一 个 小 型 的 统计 软件 ,其 统计 分 析 能 力 远 远 超过 了 SPSS. 在 许多 方面 也 超过 了 
SAS。 由 于 Stata 在 分 析 时 是 将 数据 全 部 读 和 内存, 在 计算 全 部 完成 后 才 和 磁盘 交换 数据 ， 
因此 计算 速度 极 快 (一 般 来 说 ,SAS 的 运算 速度 要 比 SPSS 至 少 快 一 个 数量 级 ,而 Stata 的 某 
些 模 块 和 执行 同样 功能 的 SAS 模块 比 ,其 速度 又 比 SAS 快 将 近 一 个 数量 级 )。Stata 也 是 
采用 命令 行 方式 来 操作 ,但 使 用 上 远 比 SAS 简单 。 其 生存 数据 分 析 、 纵 向 数据 (重复 测量 数 
据 ) 分 析 等 模块 的 功能 甚至 超过 了 SAS。 用 Stata 绘制 的 统计 图 形 相当 精美 ,很 有 特色 。 在 
长 远 趋势 上 ,Stata 有 超越 SAS 的 可 能 。 
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Stata 最 大 的 缺点 应 该 是 数据 接口 太 简单 ,实际 上 只 能 读 入 文本 格式 的 数据 文件 ; 其 数 
据 管理 界面 也 过 于 单调 。 
S. MATLAB 


MATLAB (矩阵 实验 室 ) 是 MATrix LABoratory 的 缩写 ,是 一 款 由 美国 The MathWorks 
公司 出 品 的 商业 数学 软件 。MATLAB 是 一 种 用 于 算法 开发 .数据 可 视 化 、 数 据 分 析 以 及 数 
值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 。 除 了 矩阵 运算 ,绘制 函数 /数据 图 像 等 常用 功能 
外 ,MATLAB 还 可 以 用 来 创建 用 户 界面 及 调用 其 他 语言 (包括 C,C++ 和 FORTRAN) 编 写 
的 程序 ,如 图 7-9 所 示 。 


















































图 7-9 MATLAB 分 析 工 具 


MATLAB 和 Mathematica、Maple 并 称 为 三 大 数学 软件 。 它 在 数学 类 科技 应 用 软件 中 
在 数值 计算 方面 首届 一 指 ,主要 应 用 于 工程 计算 ,控制 设计 ,信号 处 理 与 通信 ,图 像 处 理 \ 信 
号 检测 .金融 建 模 设计 与 分 析 等 领域 。 

软件 特点 如 下 。 

(1) 高 效 的 数值 计算 及 符号 计算 功能 ,能 使 用 户 从 繁杂 的 数学 运算 分 析 中 解脱 出 来 ; 

(2) 具有 完备 的 图 形 处 理 功能 .实现 计算 结果 和 编程 的 可 视 化 ; 

(3) 友好 的 用 户 界 面 及 接近 数学 表达 式 的 自然 化 语言 ,使 学 习 者 易于 学 习 和 掌握 ; 

(4) 功能 丰富 的 应 用 工具 箱 ( 如 信号 处 理工 具 箱 .通信 工具 箱 等 ) ,为 用 户 提 供 了 大 量 方 
便 实 用 的 处 理工 具 。 
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7.4 数据 仓库 理论 


数据 仓库 也 是 一 种 数据 库 , 因 此 传统 数据 库 的 原理 ,比如 数据 独立 性 ` 数 据 安全 性 和 完 
整 性 、 并 发 控制 技术 等 都 是 数据 仓库 原理 的 一 部 分 。 本 节 主 要 介绍 数据 仓库 本 身 所 有 的 特 
征 、 数 据 仓库 模型 数据 仓库 设计 、 数 据 仓库 建设 方法 论 和 数据 仓库 管理 相关 技术 等 。 

7.4.1 数据 仓库 的 主要 特征 

根据 William H. Inmon 给 出 的 定义 ,数据 仓库 是 一 个 面向 主题 的 、 集 成 的 .时 变 的 和 非 易 
失 的 数据 集合 ,支持 管理 部 门 的 决策 过 程 。 根 据 此 定义 ,数据 仓库 具有 以 下 4 个 主要 特征 。 

1. 面向 主题 

数据 仓库 围绕 一 些 主题 如 客户 、 供 应 商 、 产 品 和 销售 来 组 织 。 数 据 仓库 关注 决策 者 的 数 
据 建 模 与 分 析 , 而 不 是 组 织 机 构 的 日 常 操作 和 事务 处 理 。 

2. 集成 

通常 ,构建 数据 仓库 是 将 多 个 异 构 数据 源 ,如 关系 数据 库 、 一 般 文件 和 联机 事务 记录 集 
成 在 一 起 。 使 用 数据 清理 和 数据 集成 技术 确保 命名 约定 、 编 码 结 构 及 属性 度量 等 的 一 致 性 。 

3. 时 变 

数据 存储 从 历史 的 角度 (例如 过 去 5 一 10 年 ) 提 供 信 息 。 数 据 仓 库 的 关键 结构 都 隐 式 或 
显 式 地 包含 时 间 元 素 。 

4. 非 易 失 

数据 仓库 总 是 物理 地 分 别 存 放 数 据 ,这 些 数据 源 于 操作 环境 下 的 应 用 数据 ,由 于 这 种 分 
离 ,数据 仓库 不 需要 事务 处 理 , 恢 复 和 并 发 控制 机 制 。 

总 之 ,数据 仓库 是 语义 上 一 致 的 数据 存储 , 它 充 当 用 于 决策 支持 的 数据 模型 的 物理 实 
现 , 并 存放 企业 战略 决策 所 需要 的 信息 。 数 据 仓库 也 常常 被 看 作 一 种 体系 结构 ,通过 将 异 构 
数据 源 中 的 数据 集成 在 一 起 而 构造 ,支持 查询 、 分 析 报 告 和 决策 制定 。 

7.4.2 数据 仓库 建 模 

数据 建 模 是 抽象 描述 现实 世界 的 一 种 工具 和 方法 ,是 通过 抽象 的 实体 及 实体 之 间 联 系 
的 形式 ,来 表示 现实 世界 中 事务 的 相互 关系 的 一 种 映射 。 数 据 仓库 建 模 按照 应 用 层次 可 分 
为 : 业务 建 模 、 领 域 建 模 .逻辑 建 模 和 物理 建 模 。 

1. 业务 建 模 一 一 主要 解决 业务 层面 的 分 解 和 程序 化 

(1) 划分 整个 单位 的 业务 ,一 般 按照 业务 部 门 的 划分 ,进行 各 个 部 门 之 间 业 务工 作 的 界 
定 , 理 清 各 业务 部 门 之 间 的 关系 。 

(2) 深入 了 解 各 个 业务 部 门 内 具体 业务 流程 并 将 其 程序 化 。 

(3) 提出 修改 和 改进 业务 部 门 工 作 流程 的 方法 并 程序 化 。 

(4) 数据 建 模 的 范围 界定 ,整个 数据 仓库 项 目的 目标 和 阶段 划分 。 

2. 建 模 领域 一 一 主要 是 对 业务 模型 进行 抽象 处 理 , 生 成 领域 概念 模型 

(1) 抽取 关键 业务 概念 .并 将 之 抽象 化 。 
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(2) 将 业务 概念 分 组 ,按照 业务 主线 聚合 类 似 的 分 组 概念 。 

(3) 细 化 分 组 概念 , 理 清 分 组 概念 内 的 业务 流程 并 抽象 化 。 

(4) 理 清 分 组 概念 之 间 的 关联 ,形成 完整 的 领域 概念 模型 。 

3. 逻辑 建 模 一 一 主要 将 领域 模型 概念 实体 以 及 实体 之 间 的 关系 进行 数据 层次 的 逻辑 化 
(1) 业务 概念 实体 化 ,并 考虑 其 具体 的 属性 。 

(2) 事件 实体 化 ,并 考虑 其 属性 内 容 。 

(3) 说 明 实 体 化 ,并 考虑 其 属性 内 容 。 

4. 物理 建 模 一 一 主要 解决 逻辑 模型 针对 不 同 关系 型 数据 库 的 物理 化 及 性 能 等 技术 问题 
(1) 针对 特定 物理 化 平台 ,做 出 相应 的 技术 调整 。 

(2) 针对 模型 的 性 能 考虑 ,对 特定 平台 做 出 相应 的 调整 。 

(3) 针对 管理 的 需要 ,结合 特定 的 平台 做 出 相应 的 调整 。 

(4) 生成 最 后 的 执行 脚本 ,并 迭代 完善 。 


7.4.3 数据 仓库 设计 


数据 仓库 模型 是 数据 仓库 建 库 和 管理 ,定义 数据 转移 规则 和 流程 ,以 及 设计 数据 仓库 和 
前 端 应 用 接口 的 重要 依据 。 当 数据 仓库 系统 结构 需要 进行 更 改 时 , 先 检查 响应 的 数据 模型 ， 
全 面 了 解 改动 对 现 有 数据 仓库 结构 的 影响 ,然后 决定 是 否 需要 变化 以 及 怎样 变化 ,再 对 数据 
仓库 系统 的 其 他 模块 进行 修改 。 

数据 仓库 模型 的 设计 一 般 依据 现 有 主题 分 析 需 要 ,满足 需求 涉及 的 数据 范畴 ,从 而 确定 
数据 集 市 模型 和 数据 仓库 逻辑 模型 ,如 图 7-10 所 示 , 主 要 包括 以 下 几 个 部 分 。 


AM 

分 析 模型 
AM 

分 析 模型 


图 7-10 数据 仓库 模型 


(1) 数据 源 : 数据 采集 来 源 。 主 要 来 自 报表 管理 中 心 . 账 务 系统 、 其 他 系统 或 者 文件 。 

(2) STG 集结 区 : 来 源 于 各 个 数据 源 的 数据 存放 区 域 , 只 存储 最 近 变 化 的 一 个 时 间 段 
内 的 数据 ,未 经 处 理 和 整合 的 数据 。 

(3) ODS 交互 区 : 来 源 于 STG 集结 区 ,将 集结 区 内 的 数据 转化 为 通用 的 格式 在 ODS 
内 进行 存储 ,将 来 源 于 各 个 业务 系统 的 数据 按照 通用 的 格式 进行 数据 处 理 和 转换 。 
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(4) DW 数据 仓库 : 数据 结构 与 ODS 交互 区 的 数据 结构 一 致 ,存储 长 期 稳定 的 数据 ,最 
新 的 数据 根据 来 自 ODS 交互 区 的 数据 进行 更 新 。 

(5) AM 分 析 模 型 : 来 源 于 DM 数据 仓库 ,将 DW 数据 仓库 的 数据 进行 转换 .加 工 处 
理 , 作 为 数据 集成 的 基础 。 

(6) DM 数据 集 市 : 根据 不 同 的 业务 主题 ,将 AM 分 析 模 型 的 数据 按照 不 同 的 主题 分 
别 存储 到 不 同 的 数据 集 市 中 , 供 前 端 展 示 使 用 。 

(7) UI 前 端 展现 : 语义 层 和 前 端 展现 。 


7.4.4 数据 仓库 建设 方法 论 


数据 仓库 的 建设 是 一 个 复杂 的 系统 工程 。 从 数据 仓库 技术 诞生 到 现在 ,有 许多 企业 进 
行 了 数据 仓库 的 建设 ,有 很 多 成 功 的 经 验 , 也 有 很 多 失败 的 教训 。 企 业 如 何 有 效 地 建立 数据 
仓库 需要 具体 方法 论 指导 。 业 界 有 很 多 厂商 和 公司 都 在 其 数据 仓库 的 建设 中 积累 了 很 多 的 
经 验 知识 ,并 形成 了 一 些 系统 的 方法 论 。 

Oracle 数据 仓库 建设 方法 论 (DWM) 是 一 个 结构 化 的 实施 方法 ,定义 了 用 于 构件 一 个 
完善 的 、 满 足 业 务 功能 的 数据 仓库 系统 所 需要 的 典型 步骤 和 任务 。Oracle 数据 仓库 建设 方 
法 论 中 的 增 量 实施 法 把 数据 仓库 系统 的 实施 分 为 13 个 过 程 ,7 个 阶段 ,示例 如 表 7-4 所 示 。 


表 7-4 数据 仓库 方法 论 









































过 程 阶 段 实施 策略 | 系统 定义 | 系统 分 析 | 系统 设计 | 系统 建立 | 系统 应 用 | 系统 维护 
业务 需求 定义 34.6% 9.3% 13.3% 
数据 获取 8.4% 8.5% 23.1% 16.4% 17.2% | 21.4% 
系统 结构 定义 11.5% 22.2% 14.3% | 5.4% 14.5% 
数据 质量 控制 2.2% 12.1% 6.5% 7.9% 0.6% 
数据 仓库 管理 3.4% 4.4% 3.9% 11% 16.1% 
元 数据 管理 3.7% 4.7% 4.9% 
数据 访问 6.3% 4.7% 4.9% 
数据 库 设计 与 建立 4% 2% 
文档 设置 1% 1.1% 2% 4.5% 3.9% 
系统 测试 1.2% 7.4% 15% 19.8% | 19.7% 
培训 0.5% 7.7% 2.7% 4.1% 4.7% 27.8% 
系统 上 线 1.7% 0.2% 0.4% 17.8% 
技术 支持 45% 























表 7-4 中 横向 为 数据 仓库 建设 的 7 个 阶段 ,纵向 为 13 个 建设 过 程 。 从 策略 规划 到 最 后 
的 系统 维护 阶段 ,涵盖 了 数据 仓库 项 目 建设 的 全 生命 周期 阶段 。 由 于 数据 仓库 的 建设 活动 
过 程 基本 上 都 是 跨 阶段 实施 完成 的 ,所 以 中 间 的 纵横 交叉 点 则 是 实施 过 程 在 每 个 实施 阶段 
的 分 布 ,各 个 过 程 右边 的 区 域 表 示 每 个 过 程 涉 及 哪个 实施 阶段 . 表 中 的 百分比 表示 以 一 个 中 
等 规模 的 项 目 为 例 ,每 个 过 程 在 各 个 实施 阶段 中 所 占 的 比例 。DWM 可 以 帮助 我 们 解决 诸 
如 确定 正确 的 系统 范围 和 用 户 需求 ,建立 灵活 的 系统 架构 以 满足 不 断 变化 的 应 用 需求 和 不 
可 预测 的 使 用 需求 等 数据 仓库 建设 中 的 问题 。 

NCR Teradata 数据 仓库 建设 方法 论 是 一 个 系统 的 体系 。 该 方法 论 使 整个 数据 仓库 的 
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实施 处 于 完全 可 控制 状态 ,方法 论 描述 了 实施 的 各 个 步 又。 方法 论 包括 4 个 阶段 : 数据 仓 
库 策 略 开发 .数据 仓库 规划 .数据 仓库 设计 和 实现 、 数 据 仓库 支持 和 增强 ,如 图 7-11 所 示 。 
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图 7-11 NCR 数据 仓库 建设 方法 论 


数据 仓库 策略 开发 是 数据 仓库 建设 方法 论 的 起 点 ,构造 了 后 续 数据 仓库 活动 的 道路 。 
接 下 来 ,规划 阶段 执行 对 特定 业务 领域 的 详细 的 分 析 和 设计 。 分 析 和 设计 完成 后 ,设计 与 实 
现 阶段 建造 出 有 业务 价值 的 实际 数据 仓库 。 在 数据 仓库 投入 运行 后 ,开始 进入 持续 的 开发 
维护 阶段 。NCR 数据 仓库 建设 方法 论 是 一 个 循环 的 过 程 ,以 实现 数据 仓库 和 业务 的 持续 
改进 。 


7.4.5 数据 仓库 相关 技术 

1. 数据 提取 、 转 换 与 加 载 

数据 仓库 系统 是 在 业务 系统 的 基础 上 发 展 起 来 的 ,其 内 部 存储 的 数据 来 自 于 事务 处 理 
的 业务 系统 和 外 部 数据 源 。 因 企业 的 业务 系统 是 在 不 同时 期 .不 同 背 景 面 对 不 同 应 用 ,不 
同 开发 商 等 各 种 客观 前 提 下 建立 的 ,其 数据 结构 ,存储 平台 、 系 统 平台 均 存 在 很 大 的 异 构 型 。 
这 导致 各 种 数据 源 缺 少 统一 标准 ,因而 其 数据 难以 转化 为 有 用 的 信息 ,原始 数据 的 不 一 致 导 
致 决策 时 其 可 信 度 降低 。 

此 外 , 随 着 企业 的 不 断 发 展 , 既 有 的 业务 系统 、 业 务 流程 以 及 相关 的 信息 结构 都 可 能 
会 发 生变 化 ,这 种 变化 将 直接 影响 到 后 端 数据 仓库 系统 中 的 数据 更 新 。 如 何 有 效 地 维护 
这 种 变化 ,尽量 控制 数据 仓库 刷新 操作 的 成 本 ,也 是 数据 仓库 建构 中 极为 重要 的 一 个 
问题 。 

ETL 是 建构 企业 数据 仓库 从 而 实现 商业 智能 的 核心 和 灵魂 , 它 按照 统一 的 规则 集成 数 
据 并 提高 数据 的 价值 ,是 负责 完成 数据 从 数据 源 向 目标 数据 仓库 转化 的 过 程 ,是 实施 数据 仓 
库 的 重要 步骤 。 

ETL 的 基本 功能 如 下 。 

(1) 数据 提取 : 全 量 提取 、 增 量 提取 (触发 器 .时 间 堆 .全 表 比 对 、 日 志 解析 ) 。 

(2) 数据 转换 : 工具 引擎 内 转换 和 通过 SQL 转换 。 
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(3) 数据 加 载 : 直接 使 用 SQL 语句 进行 DML 操作 和 采用 批量 装载 方法 。 

2. OLAP 多 维 分 析 

从 20 世纪 80 年 代 开 始 , 被 称 为 联机 事务 处 理 (On-Line Transaction Processing， 
OLTP) 的 数据 库 应 用 系统 已 经 在 企 事 业 单位 得 到 广泛 应 用 。 为 了 充分 利用 OLTP 数据 库 
中 大 量 的 数据 ,并 为 企业 提供 更 加 准确 且 多 角度 的 决策 信息 ,关系 数据 库 之 父 E. F. Codd 及 
其 同事 于 1993 年 提出 了 联机 分 析 处 理 (On-Line Analysis Processing, OLAP) 的 概念 。 
OLAP 是 针对 特定 问题 的 联机 多 维 数据 快速 访问 和 分 析 处 理 的 软件 技术 ,帮助 决策 者 方便 
地 对 数据 进行 深入 的 多 角度 观察 和 分 析 利 用 。 

(1) OLAP 基本 功能 。OLAP 是 用 户 进行 决策 分 析 最 重要 的 工具 ,通过 对 多 维 数据 采 
用 切片 、 切 块 、 上 钼 、 下 外 ,旋转 等 分 析 操 作 , 从 多 个 角度 观察 经 营 数 据 ,从 而 深入 地 了 解 包 含 
在 数据 中 的 信息 和 内 涵 。 

(2) 多 维 数据 模型 。 多 维 数据 模型 将 数据 看 作 数据 立方 体形 式 , 允 许 用 户 从 多 维度 对 
数据 建 模 和 观察 。 多 维 数据 模型 由 维度 和 度量 定义 。 一 般 地 ,维度 是 一 个 组 织 想 要 保存 记 
录 的 透视 图 和 实体 ,每 个 维度 都 有 一 个 表 与 之 相关 联 , 称 为 维 表 , 它 是 对 维 的 进一步 描述 。 
维 表 可 以 由 用 户 设 定 ,或 者 根据 数据 分 布 自 动产 生 和 调整 。 通 常 ,多 维 数据 模型 围绕 中 心 主 
题 组 织 ,主题 用 事实 表 表示 。 事 实 表 包括 度量 和 每 个 相关 维 表 的 键 。 数 据 仓 库 需 要 简明 的 、 
面向 主题 的 模型 ,便于 联机 数据 分 析 。 最 流行 的 数据 仓库 数据 模型 是 多 维 数据 模型 。 它 一 
般 分 为 星 型 模型 .雪花 模型 等 。 

@ 星 型 模型 。 星 型 模型 是 最 常用 来 表示 多 维 数据 的 一 种 模型 。 在 该 模型 中 ,一 个 多 维 
数据 模型 包含 一 张 事实 表 和 多 维 表 , 每 个 维 对 应 于 一 张 维 表 。 事 实 表 中 的 每 个 元 组 包含 一 
个 度量 值 和 一 组 指针 ,有 多 少 个 维度 就 有 多 少 个 指针 ,这 些 指 针 分 别 指向 相应 维 表 中 对 应 于 
该 元 组 的 那 条 记录 ,这 种 指针 在 关系 模型 中 通常 使 用 外 键 来 表示 , 维 表 由 描述 这 个 维度 的 各 
个 属性 组 成 。 图 7-12 给 出 了 星 型 模型 的 一 个 实例 。 


































































i er 客户 分 类 信息 客户 偏好 信息 
| 交易 合同 信息 出 生年 月 1 
客户 类 型 购买 频 度 
本 攻 地 点 代码 购买 准备 

一 客户 级 别 产品 使 用 量 

| 账户 信息 教育 状况 | | [| 





证 件 类 别 客户 积分 促销 响应 度 
证 件 号 码 VIP 卡号 满意 度 
证 件 有 效 时 间 行业 风险 度 


图 7-12 星 型 模型 实例 
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事实 表 一 般 行 数 较 多 ,而 维度 表 相 对 来 说 行 数 较 少 。 星 型 模型 存 取 数 据 速度 快 ,针对 各 
个 维 做 了 大 量 的 预 处 理 , 如 按照 维度 进行 预先 的 统计 、 分 类 和 排序 等 。 

@ 雪花 模型 。 雪花 模型 是 对 星 型 模型 的 扩展 ,雪花 模型 对 星 型 模型 的 维 表 进一步 层次 
化 ,原来 的 各 维 表 可 能 被 扩展 为 小 的 事实 表 , 形 成 一 些 局 部 的 “层次 ”区 域 。 它 的 优点 是 最 大 
限度 地 减少 数据 存储 量 , 以 及 把 较 小 的 维 表 联合 在 一 起 来 改善 查询 性 能 。 

雪花 模型 增加 了 用 户 必须 处 理 的 表 的 数量 和 某 些 查询 的 复杂 性 ,但 这 种 方式 可 以 使 系 
统 更 进一步 专业 化 和 实用 化 ,同时 也 降低 了 系统 的 通用 程度 。 前 端 工具 将 用 户 的 需求 转化 
为 雪花 模型 的 物理 模式 ,完成 对 数据 的 查询 。 

如 图 7-13 所 示 , 在 星 型 模型 的 基础 上 ,对 “产品 维度 表 ” 进 行 扩展 ,形成 雪花 模型 。 既 满 
足 了 用 户 对 复杂 数据 仓库 查询 的 需求 ,又 能 够 完成 一 些 简单 查询 功能 而 不 用 访问 过 多 的 
数据 。 

























客户 ID 客户 偏好 信息 
王 囊 看 | -一 ~ PMID 
交易 信息 表 | 外 员 | [多 六 分 类 信和 ll 
| BR | | 忠诚 度 
服务 机构 信息 | | 出 生年 月 | 。 | 郊 记 天 型 | 。 | 产品 使 用 
服务 品种 信息 | 。 | 家庭 状况 | 。 | 地 点 代码 | 贡献 度 
交易 合同 信息 婚姻 状况 | 客户 级 别 | 促销 响应 度 
账户 信息 教育 状况 | | 清和 度 | 











证 件 类 别 客户 积分 风险 度 | 


证 件 号 码 VIP 卡号 行业 ID 
证 件 有 效 时 间 行业 ID 行业 名 称 
行业 现状 


行业 前 景 
龙头 企业 



































图 7-13 雪花 模型 实例 


7.4.6 DW、OLAP 与 DM 的 关系 


DW( 数 据 仓库 ) .OLAP( 联 机 分 析 处 理 ) 与 DM( 数 据 挖掘 ) 是 相互 独立 而 又 相关 联系 的 
三 个 概念 。 相 互 独 立 指 它们 是 在 不 同 的 时 期 产生 的 ,由 不 同 的 学 者 或 机 构 分 别提 出 ,因此 ， 
它们 在 概念 内 涵 上 主要 解决 问题 上 以 及 使 用 技术 上 都 有 很 大 差别 。 相 互联 系 是 因为 它们 
都 是 为 了 支持 企业 的 管理 决策 而 提出 的 。 它 们 三 者 的 关系 见 表 7-5。 
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表 7-5 DW.、OLAP 与 DM 的 关系 

















主要 不 同 点 数据 仓库 (DW) OLAP 数据 挖掘 (DMD) 
提出 的 时 间 | 1991 年 1993 年 1989 年 
提出 的 学 者 | W. H. Inmon( 恩 门 ) E.F. Codd 第 11 届 国 际 人 工 智能 联合 会 
数据 集成 的 历史 数据 | 历史 数据 的 多 维 分 析 
念 函 4 l 识 的 算法 或 工 
概念 的 内 涵 集合 和 展示 方法 挖掘 数据 中 隐藏 知识 的 算法 或 工具 
海量 数据 的 集成 .组 织 和 | 人 机 交互 数据 的 多 维 
解决 的 问题 存储 联机 分 析 处 理 数据 中 隐藏 知识 的 发 现 问题 
与 统 
主要 的 技术 | 数据 库 及 相关 技术 2 机 器 学 习 、 模 式 识 别 等 人 工 智 能 技术 











7.5 数据 挖掘 高 级 理论 


在 了 解数 据 挖 掘 的 概念 时 ,首先 要 知道 知识 发 现 (Knowledge Discovery in Database， 
KDD) 的 定义 。 知 识 发 现 就 是 采用 有 效 的 算法 从 大 量 的 、 不 完全 的 \ 有 噪声 的 、 模 糊 和 随机 
的 数据 中 识别 出 有 效 的 ,潜在 价值 的 并 能 形成 最 终 可 理解 的 模式 (Pattern) 的 非 平凡 过 程 。 

知识 发 现 的 过 程 一 般 包 括 数 据 采 集 .数据 选择 .数据 整合 ,数据 挖掘 .知识 评价 和 知识 应 

数据 挖掘 是 知识 发 现 过 程 中 的 一 个 重要 而 关键 的 步骤 。 但 现在 的 文献 大 多 对 这 两 个 术 
语 不 加 区 分 地 使 用 ,并 且 在 大 多 数 场 合 都 用 数据 挖掘 术语 代替 知识 发 现 。 本 书后 面 章节 也 
将 数据 挖掘 等 同 于 知识 发 现 。 此 外 ,基于 大 数据 的 数据 挖掘 对 象 包括 结构 化 数据 和 非 结 构 
化 数据 。 基 于 大 数据 的 数据 挖掘 分 析 方 法 主要 用 于 预测 未 来 。 预 测 未 来 的 分 析 方法 主要 包 
括 聚 类 分 析 、 分 类 分 析 、 关 联 分 析 、 时 序 模型 .结构 优化 和 机 器 学 习 等 。 


7.5.1 聚 类 分 析 


聚 类 分 析 (Clustering Analysis) ,也 称 为 群集 分 析 , 是 用 于 静态 数据 分 析 的 一 门 技术 。 
聚 类 是 把 相似 的 对 象 通过 静态 分 类 的 方法 分 成 不 同 的 组 别 或 更 多 的 子 集 ,这 样 在 同一 个 子 
集 的 成 员 对 象 都 有 相似 的 一 些 属性 。 常 见 的 有 各 种 各 样 的 距离 的 算法 ,但 基于 距离 的 算法 
的 一 个 致命 的 缺点 就 是 只 能 发 现 * 类 圆 形 ” 的 聚 类 ,因此 ,后 来 又 有 人 提出 了 机 遇 密 度 的 聚 
类 。 一 般 把 数据 聚 类 归纳 为 一 种 非 监督 式 学 习 , 它 是 指 在 没有 分 类 标签 的 数据 中 寻找 内 在 
关联 。 聚 类 分 析 是 一 门 交叉 学 科 , 它 被 广泛 应 用 在 统计 学 、. 机 器 学 习 和 数据 挖掘 等 相关 领域 
之 中 ,特别 是 在 数据 挖掘 领域 ,吸引 了 很 多 的 研究 者 进行 此 相关 课题 的 研究 。 

到 目前 为 止 ,国内 外 的 学 者 提出 许多 关于 聚 类 的 分 析 方 法 ,但 是 ,整体 来 讲 , 聚 类 的 方法 
可 以 被 区 分 为 : 划分 方法 ,层次 方法 ,密度 方法 ,网 格 方法 和 模型 方法 等 。 

聚 类 算法 通常 定义 为 : 假设 有 一 组 数据 集 或 者 大 量 的 数据 ,怎样 通过 一 种 无 监督 的 方 
法 ,把 数据 集 或 者 大 量 数据 进行 不 同 的 区 分 ,也 就 是 说 ,根据 一 定 的 衡量 方式 ,把 相似 性 很 高 
的 数据 和 相似 性 较 低 的 数据 划分 为 不 同 的 类 。 在 数据 的 分 析 过 程 中 ,根据 语义 的 不 同 ,数据 
分 析 可 以 分 为 : 聚 类 类 艇 和 聚 类 分 析 。 它 们 的 主要 区 别 是 : 类 簇 是 类 别 , 而 分 析 是 技术 方 
法 。 在 当前 , 聚 类 分 析 研 究 被 广泛 应 用 到 了 许多 领域 当中 ,因而 ,在 解决 许多 不 同类 型 的 问 
题 时 ,衍生 出 了 许多 不 同 的 聚 类 方法 ,这 些 方法 都 有 不 同 的 特性 ; 因此 , 当 在 实际 生活 当中 
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应 用 到 不 同 聚 类 算法 时 ,需要 结合 实际 .考虑 多 方面 的 因素 来 选取 聚 类 算法 ,例如 ,数据 的 规 
模 、 领 域 .效率 等 条 件 , 从 而 为 做 出 决策 提供 关键 性 的 数据 支撑 。 

1. k-means 聚 类 

k-means 是 聚 类 分 析 的 经 典 算法 之 一 .主要 是 作为 一 种 探索 式 的 技术 ,用 来 发 现 之 前 没 
有 被 注意 到 的 数据 结构 。 尽 管 在 聚 类 中 记录 的 类 别 不 是 已 知 的 ,但 是 聚 类 可 以 用 来 探索 数 
据 的 结构 ,总结 类 群 的 属性 特征 。 当 维度 比较 低 的 时 候 ,我 们 可 以 可 视 化 类 群 (Cluster) ,但 
随 着 维度 增加 ,可 视 化 类 群 就 越 来 越 困 难 。A-means 聚 类 有 很 多 应 用 ,包括 模式 识别 .人 工 
智能 .图像 处 理 、 机 器 视觉 等 。 

假设 输入 数据 由 多 条 记录 组 成 ,每 条 记录 包含 多 个 数字 , 即 每 条 记录 可 以 看 成 一 个 由 数 
字 组 成 的 向 量 。 要 衡量 两 个 向 量 之 间 的 相似 度 , 就 要 选择 一 种 度量 方式 。 选 择 度量 时 通常 
有 以 下 几 个 原则 。 

(1) 距离 为 非 负 ， 

(2) 同一 个 向 量 之 间 的 距离 为 零 ; 

(3) 向 量 p 到 向 量 g 之 间 的 距离 与 向 量 g 到 向 量 p 之 间 的 距离 相等 ; 

(4) 三 个 向 量 之 间 的 距离 ,任意 一 个 距离 不 大 于 另 两 者 之 和 。 

欧 几 里 得 距离 是 一 种 最 流行 的 距离 度量 方法 。 向 量 p 和 向 量 g 之 间 的 距离 : 

d(p,q))= d(g,p) = V (qi —p) + (gs — pe) tt (gs — pr)T 


一 [Sg — py? 
i=1 


从 以 上 表达 式 可 以 看 出 : 

第 一 , 欧 几 里 得 距离 受 变量 的 规模 影响 ,改变 变量 的 规模 (比如 从 厘米 到 毫米 ), 可 以 显 
著 地 影响 结果 。 

第 二 , 欧 几 里 得 距离 不 考虑 变量 之 间 的 关联 。 

第 三 ,算法 对 离 群 值 很 敏感 ,意味 着 如 果 数 据 中 有 离 群 值 且 无 法 去 掉 的 话 , 聚 类 的 结果 
会 受 严重 的 影响 。 

下 面 来 看 k-means 聚 类 算法 过 程 . 如 图 7-14 所 示 。 

第 一 步 : 随机 选择 个 “中 心 点 ”。 

第 二 步 ; 将 每 条 记录 分 配 到 最 近 的 “中 心 点 ”上 ,形成 类 群 (Cluster) 。 

第 三 步 : 在 第 二 步 基础 上 重新 计算 新 的 类 群 的 中 心 点 ,中 心 点 的 属性 为 类 群 中 记录 的 
均值 。 

第 四 步 : 重复 第 二 步 和 第 三 步 直 至 中 心 点 不 再 改变 。 

从 k-means 算法 中 可 以 看 出 ,选择 一 个 正确 且 合适 的 天 值 ,有 助 于 算法 正确 地 将 记录 
分 类 。 或 者 ,可 以 重复 地 尝试 不 同 的 开 值 , 从 中 选 出 一 个 最 佳 的 。 当 然 , 一 些 专业 领域 的 知 
识 可 以 帮助 确定 K 的 值 。 

当 数 据 之 间 的 聚 类 不 明显 ,以 至 于 K 值 很 难 确定 时 ,可 以 使 用 一 种 启发 式 的 方法 来 挑 
选 最 优 的 KK 值 和 组 内 的 平方 和 (Within Sum of Squares. WSS) , WSS 是 一 种 用 来 衡量 聚 类 
之 间 有 多 紧密 的 方式 , 即 残 差 的 方差 ,公式 如 下 
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图 7-14 k-means 聚 类 算法 过 程 示例 


kk bu 
WSS = 和 这 l= 

WSS 即 是 计算 每 个 聚 类 中 每 个 点 与 中 心 点 的 差 的 绝对 值 的 平方 和 的 求 和 。 式 子 中 的 
各 是 类 中 的 点 ,ci 是 类 的 中 心 。 通 常 更 多 的 类 ( 即 更 大 的 开 值 ) ,会 使 得 每 个 类 更 “紧密 ”, 但 
类 太 多 会 带 来 过 拟 合 问题 。 意 味 着 WSS 值 会 随 着 K 值 的 增 大 而 减 小 ,但 有 时 候 会 上 升 ,在 
上 升 前 的 拐点 是 个 比较 好 的 选择 。 

2. MapReduce 形式 的 k-means 聚 类 

利用 MapReduce 计算 模型 ,可 以 把 k-means 应 用 到 大 数据 中 进行 数据 挖掘 。 
MapReduce 形式 的 k-means 也 很 简单 ,每 执行 一 次 MapReduce 作业 的 时 候 , 重 新 迭代 计算 
中 心 点 ,直到 中 心 点 不 再 改变 为 止 。 

先 随机 产生 一 组 中 心 点 ,然后 在 开始 执行 的 时 候 加 载 。 

Map 阶段 : 


(1) 载 人 中 心 点 。 
(2) 计算 每 行 数据 与 中 心 点 的 距离 。 
(3) 为 每 行 数据 挑选 一 个 距离 最 近 的 中 心 点 。 


(4) 输出 : Key 王 中 心 点 : Value 一 本 行 数据 。 

Reduce 阶段 : 

(1) 遍历 中 心 点 ,重新 计算 中 心 点 位 置 。 

(2) 输出 : 中 心 点 。 

重复 以 上 过 程 ,就 可 以 得 到 聚 类 的 中 心 点 。 当 然 ,K 值 也 是 需要 事先 指定 的 。 
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但 是 ,MapReduce 形式 的 k-means 算法 也 有 一 些 缺 点 ,还 存在 优化 的 空间 。 

(1) 每 次 循环 都 重复 读 人 相同 的 数据 集 ; 

(2) 没有 针对 算法 进行 计算 本 地 化 优化 ; 

(3) MapReduce 处 理 循环 迭代 任务 的 效率 不 高 。 

为 了 克服 这 几 个 缺点 ,华盛顿 大 学 (University of Washington) 的 Bill Howe 教授 领导 
的 HaLooP 项 目 就 针对 此 类 问题 进行 了 优化 。HaLoop 对 Hadoop 中 的 MapReduce 框架 进 
行 了 修改 ,使 其 能 够 适应 迭代 循环 的 任务 ,同时 保留 了 MapReduce 框架 容错 的 特性 。 
HaLoop 架构 如 图 7-15 所 示 。 
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图 7-15 HaLoop 架构 图 


将 HaLoop 应 用 在 k-means 算法 上 ,优势 在 于 Mapper 输入 时 的 缓存 机 制 。HaLoop 的 
Mapper 输入 缓存 目的 在 于 避免 非 本 地 的 数据 被 读 和 人 到 Mapper 中 (第 一 次 循环 除外 ) 。 在 
第 一 次 循环 时 ,如 果 Mapper 读 人 了 非 本 地 数据 .那么 Mapper 会 将 其 加 入 缓冲 中 ,然后 在 接 
下 来 的 循环 中 读 取 。 下 面 是 利用 HaLoop 来 优化 k-means 算法 的 示例 。 


Public class KMeansLoopInputOutput implements LoopInputOutput{ 
@Override 
Public List < String > getInputPaths(JobConf conf, int iteration, int step){ 
List < String > paths = new ArrayList <String>(); 
//only input the dataset, cluster means are 
//read from HDFS in Mappers 
Paths.add( conf. getInputPath( ) ) ; 


Return paths; 
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@Override 
Public String getOutputPath(JobConf conf, int iteration, int step){ 
Return (conf. getOutputPath() +"/i" + iteration); 
} 
} 
Public class KMeansLoopMapCacheF ilter implements CacheFilter{ 
@Override 
Public Boolean isCache( Object key, Object value, int id){ 
//cache every tuple 
Return true; 
} 
} 


本 节 介 绍 了 k-means 聚 类 在 数据 挖掘 中 的 应 用 ,以 及 如 何 利 用 分 布 式 计算 来 进行 
k-means 聚 类 。 现 在 来 总 结 一 下 A-means 聚 类 的 优 缺 点 。 

优点 : 

(1) 实现 简单 ; 

(2) 容易 将 新 的 数据 分 配给 已 有 的 类 别 , 寻 找 最 近 的 聚 类 即 可 ， 

(3) 输出 简洁 ,只 及 个 中 心 点 。 

缺点 : 

(1) 不 能 处 理 分 类 变量 

(2) 对 第 一 次 中 心 点 的 分 步 敏感 ; 

(3) 变量 都 应 该 以 相同 或 相似 的 方法 来 衡量 ,衡量 方法 不 可 变 ; 

(4) K 值 必须 已 知 ,错误 的 猜测 会 导致 错误 的 结果 ; 

(5) 趋向 于 产生 等 大 小 的 聚 类 的 结果 ,不 一 定 足 够 理想 。 


7.5.2 关联 分 析 


关联 分 析 又 称 关 联 挖掘 ,就 是 在 交易 数据 、 关 系数 据 或 其 他 信息 载体 中 ,查找 存在 于 项 
目 集合 或 对 象 集合 之 间 的 频繁 模式 .关联 .相关 性 或 因果 结构 。 或 者 说 ,关联 分 析 是 发 现 交 
易 数 据 库 中 不 同 商品 (项 ) 之 间 的 联系 。 关 联 分 析 是 一 种 简单 实用 的 分 析 技 术 ,就 是 发 现存 
在 于 大 量 数据 集中 的 关联 性 或 相关 性 ,从 而 描述 了 一 个 事物 中 某 些 属性 同时 出 现 的 规律 和 
模式 。 

关联 规则 是 另外 一 种 无 监督 学 习 的 方法 ,同样 没有 “预测 ”的 过 程 ,主要 用 于 发 现 数据 之 
间 的 联系 。 典 型 的 应 用 场景 有 : 

(1) 哪些 商品 通常 会 被 一 同 购 买 ? 

(2) 喜欢 /购买 了 这 个 产品 的 顾客 会 倾向 于 喜欢 /购买 哪些 其 他 产品 ? 

关联 分 析 的 一 个 典型 例子 是 购物 篮 分 析 。 该 过 程 通 过 发 现 顾客 放 入 其 购物 篮 中 的 不 同 

品 之 间 的 联系 ,分析 顾 客 的 购买 习惯 。 了 解 哪 些 商品 频繁 地 被 顾客 同时 购买 ,通过 这 种 关 

联 的 发 现 可 以 帮助 零售 商 制定 营销 策略 。 其 他 的 应 用 还 包括 价目 表 设 计 、 商 品 促销 、 商 品 的 
排放 和 基于 购买 模式 的 顾客 划分 。 
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可 从 数据 库 中 关联 分 析出 形 如 “由 于 某 些 事件 的 发 生 而 引起 另外 一 些 事件 的 发 生 ” 之 类 
的 规则 。 如 *67% 的 顾客 在 购买 啤酒 的 同时 也 会 购买 尿布 ”, 因 此 通过 合理 的 啤酒 和 尿布 的 
货架 摆 放 或 捆绑 销售 可 提高 超市 的 服务 质量 和 效益 。 又 如 ”C 语言 课程 优秀 的 同学 ,在 学 习 
“数据 结构 "时 为 优秀 的 可 能 性 达 88%”, 那 么 就 可 以 通过 强化 “C 语言 "的 学 习 来 提高 教学 
效果 。 

关联 规则 挖掘 的 目标 是 寻找 数据 之 间 “ 有 价值 ”的 关联 。“ 有 价值 ”取决 于 用 来 挖掘 的 算 
法 。 关 联 规则 的 表达 形式 是 , 当 某 人 单 击 /购买 产品 X 时 ,也 倾向 于 单 击 /购买 产品 Y。 在 
这 个 过 程 中 ,有 两 个 关键 阔 值 用 来 评估 关联 规则 的 重要 度 , 即 支持 度 和 置信 和 度 。 


支持 度 , 即 项 在 数据 集中 的 频 度 。 support(A) 一 saPPorTS9unteA 


support_count(AU B) 
support_count(A) 


其 中 ,support_count(A) 指 的 是 A 在 数据 集 D 中 出 现 的 次 数 。 支 持 度 表达 的 意思 是 数据 
集中 A 出现 的 频 度 。 置 信 度 表达 的 意思 是 在 A 出 现 的 基础 上 , 既 出 现 A 也 出 现 B 的 
频 度 。 

关联 规则 挖掘 通常 被 运用 于 交易 数据 集 ,由 离散 的 项 (Item) 组 成 ,比如 : 

(1) 零售 交易 数据 集 ; 

(2) 一 天 内 计划 完成 的 任务 ; 

(3) 用 户 的 会 话 中 单 击 的 链接 组 成 的 日 志 。 

以 下 主要 介绍 几 种 分 类 挖掘 的 方法 。 

1.Apriori 算法 

Apriori 算法 是 挖掘 产生 布尔 关联 规则 所 需 频繁 项 集 的 基本 算法 ,也 是 最 著名 的 关联 规 
则 挖掘 算法 之 一 。Apriori 算法 就 是 根据 有 关 频 繁 项 集 特性 的 先 验 知识 而 命名 的 。 它 使 用 
一 种 称 作 逐 层 搜索 的 迭代 方法 ,k- 项 集 用 于 探索 (十 1)- 项 集 。 首 先 , 找 出 频繁 1- 项 集 的 集 
合 , 记 作 工 ,Li 用 于 找 出 频繁 2- 项 集 的 集合 Ls, 青 用 于 找 出 L, 如 此 下 去 ,直到 不 能 找到 频 
繁 &- 项 集 。 找 每 个 Le 时 需要 扫描 一 次 数据 库 。 为 提高 按 层次 搜索 并 产生 相应 频繁 项 集 的 
处 理 效率 ,Apriori 算法 利用 了 一 个 重要 性 质 ,并 应 用 Apriori 性 质 来 帮助 有 效 缩小 频繁 项 集 
的 搜索 空间 。 

Apriori 性 质 : 一 个 频繁 项 集 的 任 一 子 集 也 应 该 是 频繁 项 集 。 证 明 根据 定义 , 若 一 个 项 
集 工 不 满足 最 小 支持 度 冰 值 min_sup, 则 工 不 是 频繁 的 , 即 P(D)~ min_sup。 若 增加 一 个 项 
A 到 项 集 T 中 , 则 结果 新 项 集 (IU A) 也 不 是 频繁 的 ,在 整个 事务 数据 库 中 所 出 现 的 次 数 也 
不 可 能 多 于 原 项 集 工 出 现 的 次 数 ,因此 P(IUA)< min_sup; 即 (TU A) 也 不 是 频繁 的 。 这 样 
就 可 以 根据 逆反 公理 很 容易 地 确定 Apriori 性 质 成 立 。 

针对 Apriori 算法 的 不 足 , 对 其 进行 优化 。 

(1) 基于 划分 的 方法 。 该 算法 先 把 数据 库 从 逻辑 上 分 成 几 个 互 不 相交 的 块 ,每 次 单独 
考虑 一 个 分 块 并 对 它 生成 所 有 的 频繁 项 集 ,然后 把 产生 的 频繁 项 集合 并 ,用 来 生成 所 有 可 能 
的 频繁 项 集 , 最 后 计算 这 些 项 集 的 支持 度 。 这 里 分 块 的 大 小 选择 要 使 得 每 个 分 块 可 以 被 放 
入 主 存 ,每 个 阶段 只 需 被 扫描 一 次 。 而 算法 的 正确 性 是 由 每 一 个 可 能 的 频繁 项 集 至 少 在 某 
一 个 分 块 中 是 频繁 项 集 保证 的 。 





置信 和 度 : confidence(A=>B)= 
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上 面 所 讨论 的 算法 是 可 以 高 度 并 行 的 。 可 以 把 每 一 分 块 分 别 分 配给 某 一 个 处 理 器 生成 
频繁 项 集 。 产 生 频 繁 项 集 的 每 一 个 循环 结束 后 . 处 理 器 之 间 进 行 通 信 来 产生 全 局 的 候选 是 
1 项 集 。 通 常 这 里 的 通信 过 程 是 算法 执行 时 间 的 主要 瓶颈 。 而 另 一 方面 ,每 个 独立 的 处 理 
器 生成 频繁 项 集 的 时 间 也 是 一 个 瓶颈 。 其 他 的 方法 还 有 在 多 处 理 器 之 间 共 享 一 个 杂凑 树 来 
产生 频繁 项 集 , 更 多 关于 生成 频繁 项 集 的 并 行 化 方法 可 以 在 其 中 找到 。 

(2) 基于 Hash 的 方法 。Park 等 人 提出 了 一 个 高 效 地 产生 频繁 项 集 的 基于 杂凑 
(Hash) 的 算法 。 通 过 实验 可 以 发 现 , 寻 找 频繁 项 集 的 主要 计算 是 在 生成 频繁 2- 项 集 Le 上 ， 
Park 等 就 是 利用 这 个 性 质 引 入 杂凑 技术 来 改进 产生 频繁 2- 项 集 的 方法 。 

(3) 基于 采样 的 方法 。 基 于 前 一 遍 扫描 得 到 的 信息 ,对 它 详细 地 做 组 合 分 析 , 可 以 得 
到 一 个 改进 的 算法 ,其 基本 思想 是 : 先 使 用 从 数据 库 中 抽取 出 来 的 采样 得 到 一 些 在 整个 
数据 库 中 可 能 成 立 的 规则 ,然后 对 数据 库 的 剩余 部 分 验证 这 个 结果 。 这 个 算法 相当 简单 
并 显著 地 减少 了 FO 代价 ,但 是 一 个 很 大 的 缺点 就 是 产生 的 结果 不 精确 , 即 存在 所 谓 的 数 
据 扭 曲 (Dataskew) 。 分 布 在 同一 页 面 上 的 数据 时 常 是 高 度 相 关 的 ,不 能 表示 整个 数据 库 
中 模式 的 分 布 ,由 此 而 导致 的 是 采样 5%% 的 交易 数据 所 花费 的 代价 同 扫描 一 遍 数 据 库 
相近 。 

(4) 减少 交易 个 数 。 减 少 用 于 未 来 扫描 事务 集 的 大 小 ,基本 原理 就 是 当 一 个 事务 不 
包含 长 度 为 Le 的 大 项 集 时 , 则 必然 不 包含 长 度 为 Lari 的 大 项 集 。 从 而 可 以 将 这 些 事务 
删除 ,在 下 一 遍 扫描 中 就 可 以 减少 要 进行 扫描 的 事务 集 的 个 数 。 这 就 是 AprioriTid 的 基 
本 思想 。 

比如 ,输入 一 个 最 小 的 支持 度 阔 值 , 只 有 满足 这 个 阔 值 的 关联 规则 才 会 被 挖掘 出 来 。 
Apriori 算法 利用 的 是 这 样 一 个 特性 : 任何 频繁 项 集 的 子 集 都 是 频繁 的 。 比 如 , 当 我 们 挖掘 
出 (4A,B,C) 的 支持 度 满 足 阔 值 , 即 是 频繁 项 集 的 时 候 , 那 么 它 的 任何 一 个 子 集 , 比 如 (A,B) 
或 (4A,C) 都 是 频繁 的 ,因为 凡是 出 现 了 (A,B,C) 的 数据 中 也 一 定 出 现 了 (4A,B) 或 (A,C)。 
遵循 这 个 思想 ,Apriori 算法 有 效 地 精简 了 搜索 空间 。 

Apriori 算法 的 步骤 如 下 。 

(1) 在 最 小 的 支持 度 阔 值 的 基础 上 , 找 出 1 项 的 频繁 项 集 , 然 后 找到 两 个 频繁 项 之 间 的 
组 合 及 组 合 的 支持 度 。 

(2) 精简 掉 所 有 不 符合 最 小 支持 度 的 项 集 。 

(3) 逐步 利用 频繁 项 的 组 合 增加 项 的 个 数 ,并 重复 以 上 过 程 ,直到 找到 所 有 的 频繁 项 集 
或 项 集中 项 的 个 数 达 到 最 大 值 。 

应 用 案例 : 信用 卡 记录 数据 集 的 Apriori 算法 挖掘 关联 规则 。 

假设 : 

(1) 1000 条 信用 记录 ; 

(2) 最 小 支持 度 为 0. 5, 即 只 有 出 现 频率 达到 50% 或 以 上 (支持 计数 达到 500 或 以 上 ) 
的 项 才 会 被 考虑 。 

找 出 一 个 元 素 的 且 符 合 最 小 支持 度 的 项 集 , 如 表 7-6 所 示 。 

将 表 7-6 中 支持 计数 不 满足 500 的 项 集 去 掉 。 接 下 来 把 这 些 项 组 合 在 一 起 ,然后 再 遍 
历数 据 集 得 到 支持 计数 ,如 表 7-7 所 示 。 
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表 7-6 寻找 1 项 的 频繁 项 集 表 7-7 寻找 2 项 的 频繁 项 集 
频繁 项 集 支持 计数 频繁 项 集 支持 计数 
credit_good 700 credit_good,male_single 402 
credit_bad 300 
male_single 550 credit_ good,job_skilled 544 
male_mar_or_wid 92 credit_ good,home_owner 527 
female 310 
job_skilled 631 male_single,job_skilled 340 
job_unskilled 200 male_single, home_owner 408 
home_owner 710 
Re 179 job_skilled, Home_owner 452 











去 掉 不 满足 最 小 支持 度 的 频繁 项 集 , 得 到 频繁 项 集 (credit_good,job_skilled) 和 {credit_ 
good,home_owner} ,更 进一步 得 到 三 个 元 素 的 集合 ,如 表 7-8 所 示 。 


表 7-8 寻找 3 项 频繁 项 集 


频繁 项 集 支持 计数 


credit_good,job_skilled, home_owner 402 








由 于 不 满足 最 小 支持 度 , 到 这 里 就 没有 项 集 了 。 

从 两 个 元 素 的 频繁 项 集中 ,可 以 得 到 以 下 候选 规则 ,如 表 7-9 所 示 。 
(1) credit_good 一 > job_skilled 

(2) job_skilled=> credit_good 

(3) credit_good 一 > home_owner 

(4) home_owner 一 > credit_good 


表 7-9 候选 规则 


支持 支持 
h 而 了 页 洒 国 
规则 项 集 | 入 项 集 | 魏 和 站 





credit_good 一 > job_skilled credit_good 700 |credit_good,job_skilled 544 | 544/700==77% 





credit_good 一 > home_owner | credit_good 700 | credit_good,home_owner | 527 | 527/700=75% 





job_skilled 一 > credit_good job_skilled 631 |job_skilled,credit_good 544 | 544/631 二 86% 





home_owner 一 > credit_good home_owner | 710 |home owner,credit good | 527 | 527/710=74% 

















从 表 7-9 中 ,可 以 看 到 job_skilled 二 > credit_good 有 一 个 较 高 的 置信 和 度 86%, 是 比较 可 
靠 的 规则 。 
从 以 上 案例 中 ,可 以 发 现 Apriori 算法 的 优 缺 点 ,如 表 7-10 所 示 。 
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表 7-10 Apriori 算法 的 优 缺 点 比较 

















优 点 缺 点 
实现 简单 需要 多 次 遍历 数据 集 
有 效 地 精简 了 搜索 空间 (任何 频繁 项 集 的 自己 都 是 频繁 的 ) 指数 的 时 间 复 杂 度 
容易 并 行 化 容易 得 到 伪造 或 巧合 的 关联 
可 能 产生 大 量 候选 集 


2. FP-growth 算法 


于 Apriori 方法 的 固有 缺陷 ,即使 进行 了 优化 ,其 效率 也 仍然 不 能 令 人 满意 。2000 
年 ,Han Jiawei 等 人 提出 了 基于 频繁 模式 树 (Frequent Pattern Tree,FP-tree) 的 发 现 频繁 模 
式 的 算法 FP-growth。 在 FP-growth 算法 中 ,通过 两 次 扫描 事务 数据 库 , 把 每 个 事务 所 包含 
的 频繁 项 目 按 其 支持 度 降序 压缩 存储 到 FP-tree 中 。 在 以 后 发 现 频 繁 模 式 的 过 程 中 ,不 需 
要 再 扫描 事务 数据 库 , 而 仅 在 FP-Tree 中 进行 查找 即 可 ,并 通过 递归 调用 FP-growth 的 方 
法 来 直接 产生 频繁 模式 ,因此 在 整个 发 现 过 程 中 也 不 需 产 生 候选 模式 。 该 算法 克服 了 
Apriori 算法 中 存在 的 问题 ,在 执行 效率 上 也 明显 好 于 Apriori 算法 。 

从 上 面 的 对 Apriori 算法 的 介绍 中 ,可 以 看 出 Apriori 有 明显 的 缺点 ,就 是 可 能 会 产生 
大 量 的 候选 集 。 例 如 ,前 一 步 产 生 了 10' 个 1 项 的 候选 集 , 则 会 产生 10’ 个 2 项 的 候选 集 。 
另 一 种 不 产生 候选 集 的 挖掘 关联 规则 的 方法 就 是 FP-growth。 

FP-growth 指 的 是 Frequent-Pattern growth( 频 繁 模式 增长 ) ,采用 的 是 一 种 分 而 治之 
的 方法 ,通过 构建 一 个 紧凑 的 FP-tree, 然 后 再 FP-tree 上 进行 控 掘 。 

先 遍历 一 次 数据 集 , 对 数据 集中 的 每 项 计数 。 与 Apriori 的 1 项 一 致 ,其 结果 就 是 每 项 
的 支持 计数 。 然 后 根据 最 小 支持 度 冰 值 ,将 不 满足 最 小 支持 度 阔 值 的 项 去 掉 。 

接 下 来 对 上 一 步 产 生 的 项 进行 排序 ,依据 它们 的 支持 度 从 大 到 小 排序 。 组 成 一 个 
Header Table。 

然后 再 次 遍历 数据 集 , 构 建 FP-tree。FP-tree 的 结构 如 图 7-16 所 示 。 


Header Table 




















item Head of node- 
links 
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和 
mm  ， -------------- 
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图 7-16 FP-tree 结构 图 
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FP-tree 具有 如 下 性 质 。 

(1) 它 有 一 个 根 节点 , 即 root 节点 。 

(2) 每 个 节点 存储 三 个 信息 : 项 名 称 ,计数 ,节点 链接 。 

(3) Header Table 中 的 每 一 项 存储 两 个 信息 : 项 名 称 和 节点 链接 。 其 中 ,节点 链接 指 
向 该 项 在 FP-tree 中 的 第 一 个 节点 。 

另外 ,既然 在 第 一 次 遍历 后 得 到 了 每 个 项 的 频 度 ,那么 就 可 以 根据 频 度 对 任意 一 条 事务 
记录 (Transaction) 排 序 。 下 面 遍历 数据 集 ,构造 FP-tree。 

(1) 逐 行 读 取 数 据 集 ,每 行 数据 由 多 个 项 组 成 ; 

(2) 对 每 行 数据 中 的 项 按 频 度 高 低 排 序 ; 

(3) 把 每 行 数据 都 插入 到 FP-tree 中 。 

把 每 行 数据 插入 到 FP-tree 中 时 ,依照 以 下 规则 : 按 频 度 从 高 到 低 依次 读 取 项 ,将 root 
节点 设 为 当前 节点 ,对 于 每 一 项 ,如 果 项 存在 于 当前 节点 的 子 节点 中 , 则 将 此 子 节点 的 计数 
加 1, 并 将 其 设 为 当前 节点 , 若 不 存在 则 创建 与 项 名 称 相同 的 子 节点 并 设 其 计数 为 1。 

当 数 据 集 中 的 所 有 数据 都 被 遍历 后 ,FP-tree 建立 完成 。 

接 下 来 就 进入 挖掘 阶段 ,挖掘 的 结果 就 是 候选 规则 。 

输入 挖掘 算法 FP-growth 函数 的 有 两 个 参数 ,一 个 是 FP-tree, 另 一 个 是 项 集 a。 第 一 
次 调用 时 a 为 空 集 。 算 法 执行 如 下 。 

车 FP-tree 只 有 一 条 路 径 , 则 输出 这 条 路 径 上 项 的 所 有 组 合 与 a 的 并 集 ,支持 度 是 这 个 
组 合 中 项 的 计数 的 最 小 值 。 

若 FP-tree 里 有 不 止 一 条 路 径 , 则 对 于 Header Table 里 的 每 一 项 a 进行 如 下 操作 。 

(1) 输出 a 与 a 的 并 集 B, 其 支持 度 是 a 的 支持 度 ; 

(2) 建立 条 件 FP-tree, 若 条 件 FP-tree 非 空 , 则 以 条 件 FP-tree 和 BB 为 参数 调用 FP- 
growth 函数 。 

条 件 FP-tree 指 的 是 ,以 在 a 的 条 件 上 筛选 出 来 的 数据 集 建立 的 FP-tree。 

当 计算 出 候选 规则 及 其 支持 度 以 后 ,就 可 以 在 相应 的 置信 度 基础 上 挖掘 出 关联 规则 了 。 


7.5.3 回归 和 分 类 分 析 


回归 分 析 是 确定 两 种 或 两 种 以 上 变数 之 间 相互 依赖 的 定量 关系 的 一 种 统计 分 析 方 法 ， 
运用 十 分 广泛 。 回 归 分 析 按 照 涉及 的 自 变量 的 多 少 , 可 分 为 一 元 回归 分 析 和 多 元 回归 分 析 ; 
按照 自 变量 和 因 变 量 之 间 的 关系 类 型 ,可 分 为 线性 回归 分 析 和 非 线 性 回归 分 析 。 如 果 在 回 
归 分 析 中 ,只 包括 一 个 自 变量 和 一 个 因 变 量 , 且 二 者 的 关系 可 用 一 条 直线 近似 表示 ,这 种 回 
归 分 析 称 为 一 元 线性 回归 分 析 。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变 量 , 且 因 变 量 
和 自 变量 之 间 是 线性 关系 , 则 称 为 多 元 线性 回归 。 

分 类 数据 是 统计 数据 的 一 种 , 指 反 映 事物 类 别 的 数据 ,如 人 按 性 别 分 为 男 、 女 两 类 。 分 
类 数据 是 离散 数据 。 分 类 属性 具有 有 限 个 (但 可 能 更 多 ) 不 同 值 , 值 之 间 无 序 。 有 很 多 方法 
产生 分 类 数据 的 概念 分 层 。 分 类 分 析 是 指 找 出 数据 库 中 的 一 组 数据 对 象 的 共同 特点 并 按照 
分 类 模式 将 其 划分 为 不 同 的 类 ,其 目的 是 通过 分 类 模型 ,将 数据 库 中 的 数据 项 映射 到 某 个 给 
定 的 类 别 中 。 可 以 应 用 到 涉及 应 用 分 类 ,趋势 预测 中 ,如 淘宝 商铺 将 用 户 在 一 段 时 间 内 的 购 
买 情况 划分 成 不 同 的 类 ,根据 情况 向 用 户 推荐 关联 类 的 商品 ,从 而 增加 商铺 的 销售 量 。 
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回归 (Regression) 关 注 的 是 输入 变量 和 结果 之 间 的 关系 。“ 回 归 ” 这 个 术语 最 早 由 费 兰 
西 斯 . 高 尔 顿 在 19 世纪 用 来 描述 生物 现象 。 这 种 现象 是 拥有 较 高 高 度 的 祖先 的 后 代 往往 回 
归 到 正常 的 平均 水 平 。 具 体 地 说 ,回归 分 析 有 助 于 了 解 一 个 目标 变量 如 何 随 着 属性 变量 的 
变化 而 变化 。 

例如 一 些 问题 : 我 想 预测 客户 的 生命 周期 价值 ,并 且 了 解 是 什么 因素 在 其 中 产生 影响 。 
是 什么 使 得 价值 更 高 或 更 低 ? 我 想 预 测 这 个 贷款 是 否 会 被 拖欠 ? 

回归 分 析 的 结果 可 以 是 连续 的 或 离散 的 ,如 果 是 离散 的 ,还 可 以 预测 各 个 离散 值 产生 的 
概率 。 

1. 线性 回归 

本 节 将 介绍 回归 分 析 中 的 一 种 一 一 线性 回归 。 之 前 介绍 了 关联 规则 分 析 适 用 于 处 理 离 
散 型 数据 ,比如 电子 商务 交易 记录 等 ,但 不 适用 处 理 数值 型 的 连续 数据 。 本 节 介 绍 的 线性 回 
归 正 是 适合 处 理 数值 型 的 连续 数据 。 

线性 回归 是 统计 学 的 一 种 常用 方法 , 它 的 主导 思想 是 利用 预定 的 权 值 将 属性 进行 线性 
组 合 来 表示 类 别 , 如 下 面 公式 所 示 : 

X= ro 十 lal 十 saz tt" wiar 

式 中 的 X 是 目标 变量 ,a 是 属性 值 ,w 是 权 值 。 

线性 回归 的 输出 就 是 权 值 , 即 

(1) 一 组 系数 ,表示 相应 的 属性 值 的 相对 影响 ; 

(2) 一 个 以 线性 表达 来 预测 结果 的 函数 。 

对 于 这 个 目标 函数 ,我 们 感 兴趣 的 是 预测 值 和 真实 值 的 差异 。 最 好 的 目标 是 预测 值 和 
真实 值 的 差距 最 小 。 那 么 预测 值 和 真实 值 的 差 值 的 平方 之 和 如 下 : 


人 2 
人 9 ,0D 
2 到 mo ) 


括号 里 的 表达 式 是 第 i 个 示例 的 真实 类 值 和 它 的 预测 类 值 之 差 。 我 们 正 是 需要 通过 选 
择 适 当 的 系数 来 使 得 这 个 平方 和 的 值 最 小 化 。 
这 里 介绍 一 个 离散 型 变量 的 例子 , 例 中 的 模型 公式 如 下 : 


income = bo + biage + bzyearOfEducation+ bigender + b, state 


这 个 模型 用 来 预测 收入 (income) ,影响 模 型 的 变量 包括 : 年 龄 (age), 受 教育 的 时 间 
(yearOfEducation) ,性 别 (gender) 和 国家 (state)。 其 中 ,性 别 和 国家 是 离散 性 数据 。 人 性 别 
只 有 ”* 男 ?或 “ 女 ”, 国 家 则 可 能 有 几 十 个 之 多 。 因 为 线性 回归 中 的 一 个 假设 是 收入 符合 正 态 
分 布 ,但 实际 上 往往 不 是 这 样 。 因 此 .更 好 的 一 个 选择 是 选择 收入 的 对 数 。 

第 一 个 系数 名 表示 的 是 当 所 有 的 变量 都 为 0 时 的 收入 。 正 如 上 文 所 述 , 线 性 回归 不 仅 
有 预测 作用 ,也 有 解释 作用 . 即 能 解释 各 个 变量 对 目标 变量 的 影响 程度 。 假 如 我 们 问 一 个 问 
题 ; 年 龄 对 收入 有 影响 吗 ? 如 果 答 案 是 否定 的 ,那么 age 的 系数 应 该 是 0。 

线性 回归 是 一 个 出 色 的 、 简 单 的 .适用 于 数值 预测 的 方法 ,在 统计 应 用 领域 得 到 了 广泛 
的 应 用 。 当 然 , 也 存在 一 定 的 缺陷 。 如 果 数 据 呈 现 非 线性 关系 ,线性 回归 将 只 能 到 一 条 ”最 
适合 "的 直线 “最 适合 ? 指 的 是 最 小 均 方 差 。 线 性 模型 也 是 学 习 其 他 更 为 复杂 模型 的 基础 。 
总 之 ,线性 回归 的 优点 和 缺点 如 表 7-11 所 示 。 
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表 7-11 线性 回归 比较 分 析 














优 点 缺 ”点 
准确 地 表达 输入 变量 与 目标 变量 之 间 的 关系 (利用 系数 ) | 不 能 很 好 地 处 理 缺 失 值 
对 宛 余 的 变量 具有 抗 干扰 性 假设 每 个 变量 对 目标 变量 的 影响 都 是 线性 的 
对 变量 的 影响 有 解释 作用 不 能 处 理 以 非 连 续 方 式 影响 目标 变量 的 变量 
容易 对 测试 数据 进行 预测 不 能 很 好 地 处 理 离散 型 变量 





2. 逻辑 回归 

逻辑 回归 是 用 来 预 估 一 个 事件 发 生 的 几率 的 模型 。 一 个 典型 的 例子 是 : 通过 对 贷款 人 
的 信用 分 数 、 收 入 ,贷款 规模 等 因素 进行 建 模 ,从 而 计算 出 这 个 贷款 人 能 偿还 贷款 的 几率 。 
逻辑 回归 也 可 以 被 看 成 是 一 个 分 类 器 ,以 概率 最 高 的 类 别 来 预测 。 在 逻辑 回归 中 ,输入 变量 
可 以 是 连续 的 ,也 可 以 是 离散 的 。 

逻辑 回归 是 在 处 理 一 些 二 元 分 类 问题 时 的 首选 方法 ,例如 ， 

(1) 真 / 假 ; 

(2) 批准 /拒绝 ; 

(3) 有 回应 /无 回应 ; 

(4) 购买 /不 购买 ; 

(5) 中 国 男 足 是 否 会 赢得 下 届 世 界 杯 。 

逻辑 回归 如 图 7-17 所 示 。 


1.0 | 
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=]) 
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图 7-17 逻辑 回归 图 
所 以 如 果 我 们 不 仅 对 预测 类 感 兴趣 ,而且 对 某 一 类 事件 发 生 的 概率 也 感 兴趣 ,那么 逻辑 
回归 是 特别 适合 的 。 下 面 以 贷款 的 模型 来 解释 逻辑 回归 ,模型 公式 如 下 : 
default = f (creditScore, income, loanAmt, existingDebt) 


上 式 表示 了 通过 信用 等 级 (creditScore) .收入 (income) 、 贷 款 总 额 (loanAmt) .已 有 债务 
(existingDebt) 等 几 个 输入 来 预测 贷款 人 能 偿还 贷款 的 概率 。 这 个 概率 应 该 是 在 0 和 1 之 
间 ,1 表示 不 能 偿还 ,0 表示 能 偿还 。 如 果 需 要 一 个 类 似 “ 是 / 否 ” 的 答案 .那么 可 以 设置 一 个 
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阔 值 0.5。 与 上 文中 的 线性 回归 不 同 ,逻辑 回归 有 两 个 缺陷 : 第 一 ,目标 属性 从 函数 中 产生 
的 不 是 概率 值 ,因为 目标 关系 值 有 可 能 落 在 0 一 1 的 范围 以 外 ; 第 二 ,最 小 平方 回归 假设 误 
差 不 但 是 统计 上 的 独立 ,而 且 旦 现 出 具有 相同 标准 差 的 正 态 分布 。 

从 线性 回归 开始 , 若 想得到 一 个 0 一 1 之 间 的 概率 , 当 目 标 变 量 为 1 时 ,有 








In bo + bizit bazs te bars 
转换 后 可 以 表达 为 
大 大 
A asi A 
1—p(y= DD exp( 24 bz) I expCbir’) 


这 样 ,其 中 就 有 个 很 有 趣 的 事实 : 概率 的 规模 等 于 数量 总 和 。 假 如 训练 数据 中 13% 的 
数据 显示 “不 能 偿还 ”, 则 所 有 训练 集 的 得 分 总 和 相当 于 训练 例子 数量 的 13%。 假 如 贷款 申 
请 者 中 收入 小 于 5 万 元 的 有 40% 会 拖欠 , 则 在 这 个 收入 分 类 中 的 人 训练 集 得 分 总 和 是 这 个 
分 类 中 例子 数量 的 40%。 

小 结 : 逻辑 回归 具有 可 解释 性 的 输出 值 ,而 且 可 以 很 简单 地 确定 变量 影响 的 结果 。 这 
使 得 它 比 线性 回归 也 更 复杂 一 些 。 同 样 , 它 对 元 余 的 变量 也 具有 稳定 性 ,对 输出 也 有 准确 的 
表示 ,容易 对 测试 数据 进行 预测 。 逻 辑 回归 不 仅 返 回 某 个 事件 发 生 的 概率 ,而 且 保留 了 训练 
数据 的 一 些 统计 信息 。 当 然 ,逻辑 回归 也 具有 线性 回归 的 缺点 。 它 不 能 很 好 地 处 理 缺 失 值 ， 
仍然 默认 变量 是 以 线性 的 方式 影响 结果 。 所 以 ,如 果 要 把 它 应 用 到 一 些 非 线性 关系 的 问题 
中 ,那么 模型 就 有 一 定 的 局 限 性 。 总 之 ,逻辑 回归 的 优 缺 点 如 表 7-12 所 示 。 


表 7-12 逻辑 回归 比较 分 析 























可 解释 的 结果 不 能 很 好 地 处 理 默认 值 
对 元 余 变量 具有 干扰 性 假设 变量 都 是 以 线性 的 方式 影响 结果 
对 系数 有 准确 的 表示 不 能 处 理 以 非 连续 方式 影响 结果 的 变量 
容易 对 测试 数据 进行 预测 不 能 很 好 地 处 理 离散 性 变量 
返回 的 是 一 个 事件 的 概率 
保留 了 统计 数据 中 的 统计 信息 

3. 多 项 式 回 归 


对 于 一 个 回归 方程 ,如 果 自 变量 的 指数 大 于 1 ,那么 它 就 是 多 项 式 回归 方程 。 在 这 种 回 
归 技 术 中 ,最 佳 拟 合 线 不 是 直线 ,而 是 一 个 用 于 拟 合 数据 点 的 曲线 ,如 图 7-18 所 示 。 
重点 : 虽然 会 有 一 个 诱导 可 以 拟 合 一 个 高 次 多 项 式 并 得 到 较 低 的 错误 ,但 这 可 能 会 导 
致 过 拟 合 。 需 要 经 常 画 出 关系 图 来 查看 拟 合 情 况 ,并 且 专注 于 保证 拟 合 合理 , 既 没有 过 拟 合 
又 没有 欠 拟 合 。 图 7-19 是 一 个 图 例 ,可 以 帮助 理解 。 

明显 地 向 两 端 寻 找 曲线 点 ,看 看 这 些 形状 和 趋势 是 否 有 意义 。 更 高 次 的 多 项 式 最 后 可 
能 产生 怪异 的 推断 结果 。 

4. 逐步 回归 

在 处 理 多 个 自 变 量 时 ,可 以 使 用 这 种 形式 的 回归 。 在 这 种 技术 中 , 自 变量 的 选择 是 在 一 
个 自动 的 过 程 中 完成 的 ,其 中 包括 非 人 为 操作 。 这 一 壮举 是 通过 观察 统计 的 值 ,如 R- 
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Underfitting ~ Just right! x Overfitting 


图 7-19 多 项 式 回归 拟 合 比较 


square,t-status 和 AIC 指标 ,来 识别 重要 的 变量 。 逐 步 回归 通过 同时 添加 /删除 基于 指定 标 
准 的 协 变量 来 拟 合 模型 。 下 面 列 出 了 一 些 最 常用 的 逐步 回归 方法 : 标准 逐步 回归 法 做 两 件 
事情 , 即 增加 和 删除 每 个 步骤 所 需 的 预测 ; 向 前 选择 法 从 模型 中 最 显著 的 预测 开始 ,然后 为 
每 一 步 添加 变量 ; 向 后 剔除 法 与 模型 的 所 有 预测 同时 开始 ,然后 在 每 一 步 消除 最 小 显著 性 
的 变量 。 

5. 朴素 贝 叶 斯 

分 类 问题 中 的 主要 任务 是 预测 目标 所 属 的 类 别 。 与 聚 类 不 同 的 是 ,这 里 类 别 的 种 类 是 
事先 已 经 定义 好 的 。 

朴素 贝 叶 斯 分 类 器 (Naive Bayesian Classifier) 是 一 个 简单 的 基于 贝 叶 斯 理论 的 概率 分 
类 器 。 朴 素 贝 叶 斯 分 类 器 假设 属性 之 间 相 互 独立 。 或 者 说 ,一 个 朴素 贝 叶 斯 分 类 器 假设 某 
个 类 的 特性 的 出 现 与 其 他 特征 没有 关系 。 虽 然 这 个 假设 在 实际 应 用 中 往往 是 不 成 立 的 ,但 
朴素 贝 叶 斯 分 类 器 依然 有 着 坚实 的 数学 基础 、 稳 定 的 分 类 效率 。 

比如 ,一 个 物体 可 以 依据 它 的 形状 大小、 颜色 等 属性 被 分 类 成 某 个 类 别 ( 网 球 是 圆 的 、 
直径 6cm \ 黄 颜色 ) 。 即 使 这 些 属 性 之 间 互 相 有 依赖 关系 存在 ,朴素 贝 叶 斯 分 类 器 也 会 认为 
所 有 的 属性 之 间 是 无 关 的 。 

根据 概率 模型 的 特征 ,朴素 贝 叶 斯 分 类 器 可 以 在 有 监督 的 环境 下 有 效 地 被 训练 。 贝 叶 
斯 理论 被 广泛 地 应 用 到 文本 分 类 中 ,例如 ,可 以 回答 如 下 问题 。 

(1) 这 封 邮件 是 垃圾 邮件 吗 ? 

(2) 这 名 政客 属于 民主 党 派 还 是 共和 党 派 ? 

(3) 网 页 内 容 的 主题 分 类 有 哪些 ? 

通常 的 朴素 贝 叶 斯 模型 中 ,输入 变量 都 是 离散 型 的 ,当然 也 有 一 些 算法 的 变种 用 来 处 理 
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连续 型 变量 。 算 法 的 输出 是 概率 的 打分 ,通常 是 0~1 之 间 , 可 以 根据 概率 最 高 的 类 来 做 
预测 。 

贝 叶 斯 定理 是 朴素 贝 叶 斯 模型 的 基础 ,是 由 英国 数学 家 贝 叶 斯 (Thomas Bayes) 的 名 字 
命名 的 。 贝 叶 斯 定理 是 用 来 描述 两 个 条 件 概率 之 间 的 关系 ,比如 ,P(A1B) 和 PC(B|A)。 贝 
叶 斯 规则 的 描述 公式 为 


P(B|A) P(ANMB) _ P(A | B)P(B) 


P(A) P(A) 

贝 叶 斯 公司 说 明 : A 为 真 的 条 件 下 B 也 为 真 的 概率 乘 以 A 为 真 的 概率 ,等 于 B 为 真 时 
A 为 真 的 概率 乘 以 也 为 真 的 概率 。 如 果 P(B|A) 是 观察 到 某 个 特定 类 标签 时 的 后 验 概率 ， 
给 定 我 们 观察 到 的 一 个 变量 A, 那 么 依据 贝 叶 斯 公式 ,这 个 概率 与 类 别 B 中 观察 到 A 的 概 
率 乘 以 在 类 别 B 中 的 先 验 概率 相等 。 

贝 叶 斯 之 所 以 重要 的 原因 是 我 们 不 知道 P(B1A), 并 且 这 就 是 我 们 要 知道 的 。 在 我 们 
从 训练 数据 中 知道 P(A1B) 和 P(B) 的 情况 下 ,通常 我 们 并 不 知道 P(A)。 下 面 通过 一 个 例 
子 来 说 明 。 

A 同学 经 常 要 乘坐 飞机 在 各 地 间 出 差 ,并 且 将 自己 的 机 票 升级 为 头等 舱 。 

A 同学 发 现 ,假如 他 在 起 飞 前 至 少 两 小 时 办 理 登 机 手续 ,那么 他 能 成 功 把 机 票 升 级 到 头 
等 舱 的 几率 是 75%; 反之 ,他 升级 到 头等 舱 失 败 的 概率 是 35%。 在 A 同学 忙碌 的 行程 安排 
中 ,他 只 有 40% 的 时 间 能 赶 在 起 飞 前 两 小 时 办 理 登 机 手续 。 

假设 A 同学 在 最 近 的 一 次 尝试 中 没 能 够 升级 到 头等 舱 的 机 票 ,那么 他 到 机 场 晚 于 起 飞 
前 两 小 时 的 概率 是 多 少 ” 这 里 设 定 : 

XX 一 一 表示 他 到 机 场 晚 了 ; 

Y 一 一 表示 他 没 能 订 到 头等 舱 机 票 。 

P(CX) 一 到 机 场 晚 了 的 先 验 概 率 王 1 一 0. 4 二 60% 

P(Y)== 没 能 订 到 头等 舱 的 先 验 概率 =1 一 (0.4X0.75 十 0. 6X0.35)=1 一 0. 51=49% 

PCY|X) 一 在 到 机 场 晚 了 的 情况 下 没有 能 升级 到 头 登 舱 的 概率 一 1 一 0. 35 二 65% 

可 以 得 到 ,PCXIY) 一 没 能 升级 到 头等 舱 的 情况 下 到 机 场 晚 了 的 概率 一 LP(CY|X) X 
P(X)J/P(Y)=(0.65X0.6)/0.49280% 

通过 贝 叶 斯 公式 ,可 以 得 到 贝 叶 斯 分 类 器 。 假 如 对 于 属性 A 及 个 类 别 ,a1,as，…， 
am ,那么 在 给 定 j 个 2 变量 值 的 情况 下 .A 的 概率 是 各 个 给 定 4; 时 的 a; 的 条 件 概率 的 乘积 ， 
如 下 式 所 示 : 








P(A 16;) = PCalyaz, ,an | b;) = [I Pai | 6;) 
i=] 
于 是 ,有 


Po | 6)P,) 
=1 


Plb; | aisas,* ,an) = a 


因为 贝 叶 斯 公式 中 的 条 件 独立 假设 .所 以 上 式 的 分 母 为 1, 可 以 去 掉 。 
那么 ,要 训练 一 个 朴素 贝 叶 斯 分 类 器 ,只 需要 搜集 以 下 的 统计 数据 。 
(1) 所 有 类 标签 的 概率 。 例 如 ,所 有 好 信用 (credit_good) 的 概率 和 坏 信 用 (credit_bad) 
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的 概率 ,从 已 有 的 训练 数据 集中 可 以 得 到 P(good)==0.7 和 PCbad) 一 0. 3。 

(2) 训练 数据 中 有 多 个 属性 ,对 于 每 个 变量 和 类 标签 的 组 合 , 要 计算 出 它们 的 条 件 概 
率 。 例 如 ,拥有 房子 与 好 信用 (own_house/credit _good) ,拥有 房子 与 坏 信 用 (own_house/ 
credit_bad) ,熟练 工作 与 好 信用 (job_skilled/credit) ,熟练 工作 与 坏 信用 (job_skilled/credit 
bad) 。 

在 计算 完 各 个 类 的 概率 及 各 个 属性 在 给 定 类 下 的 条 件 概率 后 ,就 可 以 计算 这 两 者 的 乘 
积 了 。 若 要 对 新 的 数据 分 配 类 标签 ,只 需要 计算 出 它 在 哪个 类 的 打分 最 高 即 可 ,公式 如 下 ， 


Tee | 5) Pb;) 
i=1 
再 以 上 文 的 信用 作为 例子 ,假如 计算 出 各 种 情况 的 概率 如 表 7-13 所 示 。 
表 7-13 贝 叶 斯 模型 运算 表 
































a 万 Plailb;) 
female good 0.28 
female bad 0.36 
own good 0.75 
own bad 0.62 
Self emp good 0.14 
Self emp bad 0.17 
Savings > 1000 good 0.06 
Savings > 1000 bad 0.02 


表格 中 的 属性 分 别 表示 性 别 、 拥 有 房产 ,个 体 经 营 以 及 存款 大 于 1000 元 。 

然后 ,我 们 有 个 需要 做 出 判断 的 例子 。X 表示 一 位 女士, 拥有 房产 、 个 体 经 营 , 且 存 款 
大 于 1000。 如 何 对 她 做 出 判断 呢 ? 她 的 信用 是 好 (good) 还 是 坏 (bad) 呢 ? 

在 建立 了 分 类 器 后 ,可 以 找到 PCgood|X) 王 0.0012 ,而 PCbad|X) 王 0.0002。 这 两 者 中 
的 最 大 值 被 用 来 分 类 , 即 可 以 判断 这 名 女士 的 信用 记录 是 好 (good) 。 

到 此 ,我 们 介绍 了 朴素 贝 叶 斯 分 类 器 以 及 应 用 朴素 贝 叶 斯 分 类 的 例子 ,可 以 看 到 ,朴素 
贝 叶 斯 分 类 器 的 优点 和 缺点 如 表 7-14 所 示 。 


表 7-14 贝 叶 斯 分 类 比较 分 析 




















优 点 缺 点 
能 够 很 好 地 处 理 缺 失 值 数值 型 变量 会 被 转 成 离散 型 
对 不 相关 的 变量 具有 抗 十 扰 性 对 相关 变量 很 敏感 (不 符合 条 件 独 立 假设 ) 
实现 简单 不 适用 于 估计 概率 
对 数据 的 打分 简单 
对 过 拟 合 有 抵抗 性 
处 理 高 纬度 的 问题 时 计算 效率 高 





6. 决策 树 
决策 树 是 一 种 非常 常见 且 灵 活 的 用 来 开发 数据 挖掘 应 用 的 方法 。 
(1) 分 类 树 用 于 将 要 预测 的 数据 划分 到 同 质 的 组 中 (分 配 类 标签 ) 。 通 常 应 用 于 二 分 或 
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多 类 别 的 分 类 。 

(2) 回归 树 是 回归 的 变种 ,通常 每 个 节点 返回 的 是 目标 变量 的 平均 值 。 回 归 树 通常 被 
应 用 于 连续 性 数据 的 分 类 ,比如 账户 支出 或 个 人 收入 。 

决策 树 的 输入 值 可 以 是 连续 的 也 可 以 是 离散 的 ,输出 是 一 个 用 来 描述 决策 流程 的 树 状 
模型 。 决 策 树 的 叶子 节点 返回 的 是 类 标签 或 者 是 类 标签 的 概率 分 数 。 理 论 上 ,决策 树 可 以 
被 转换 成 类 似 上 文 关联 规则 中 的 规则 。 

因为 决策 树 可 以 应 用 到 各 种 不 同 的 情境 中 ,所 以 决策 树 应 用 比较 广 。 决 策 树 的 分 类 规 
则 也 很 直接 ,结果 也 很 容易 被 可 视 化 展现 。 另 外 ,因为 决策 树 的 决策 结果 是 一 系列 的 “如 
果 …… 就 ……” 表 达 式 ,所 以 决策 树 的 模型 中 没有 隐 含 的 假设 ,比如 ,依赖 变量 和 目标 变量 之 
间 的 线性 或 非 线 性 关系 。 

决策 树 通常 以 流程 图 的 形式 展现 ,如 图 7-20 所 示 。 


分 支 : 一 个 判定 的 结 


内 部 节点 : 变量 上 做 出 的 决策 





叶子 节点 : 表示 类 标签 





图 7-20 决策 树 流程 图 


分 支 : 指 的 是 一 个 决策 做 出 的 结果 ,以 连续 的 方式 展现 。 如 果 是 数值 型 变量 ,可 以 根据 
变量 的 不 同 ,将 “等 于 ” 放 在 左 分 支 或 右 分 支 。 

内 部 节点 : 指 的 是 决策 树 内 部 用 来 做 决策 的 节点 。 每 个 节点 对 应 一 个 变量 或 属性 。 尽 
管 图 中 展示 的 是 有 两 个 决策 结果 的 节点 ,但 一 个 节点 可 以 有 超过 两 个 的 分 支 。 

叶子 节点 : 指 的 是 分 支 的 终点 ,表示 所 有 之 前 的 决定 产生 的 一 个 结果 。 

那么 ,决策 树 是 如 何 被 构建 起 来 的 ? 

找 出 “最 具有 信息 ”的 属性 有 很 多 方式 ,这 里 介绍 一 种 基于 灼 方式 ,其 公式 如 下 : 

H =— Ppl)logsp(e) 


其 中 ,p(c) 是 某 个 类 标签 c 的 概率 。 从 上 式 可 以 看 出 , 当 p(c)==0 或 者 1 时 ,及 =0。 所 以 对 
于 一 个 二 元 分 类 问题 , 互 =0 意味 着 节点 很 “纯净 ”。 当 每 个 类 的 可 能 性 都 相等 的 时 候 , 瑟 的 
值 最 大 。 

接着 ,我 们 可 以 找到 条 件 炉 。 条件 炉 指 的 是 每 个 属性 的 类 标签 的 炉 的 权重 和 ,其 计算 公 
式 如 下 : 

H =— Dp Dple | wlogsple | v) 

假如 有 个 属性 “住房 ”, 这 个 属性 有 三 种 值 “ 无 房 “ 租 房 * 有 房 "。 直 观 上 ,有 房 的 人 的 信 
用 度 应 该 比 租房 的 高 一 些 , 租 房 的 信用 度 应 该 比 无 房 的 高 一 些 。 所 以 “住房 ”这 个 属性 可 以 
对 类 标签 的 划分 给 出 更 多 的 信息 ,属于 “更 有 信息 ”的 属性 。 比 如 ,已 知 一 个 住房 信息 如 
表 7-15 所 示 。 
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住房 属性 无 房 有 房 租房 
P(housing) 0.108 0.713 0.179 
P(bad|housing) 0.407 0.261 0.391 
P(good|housing) 0.592 0.739 0. 601 
那么 有 
Hhousingleredi? 一 一 [0.108 X (0. 407log:(0.407) 十 0.592log:(0. 592) ) 


十 0.713 X (0. 261log:(0. 261) 十 0.739log:(0.739)) 
十 0.179 x (0. 391log:(0. 391) 十 0.601log:(0. 601))] 
一 0. 868 

就 可 以 计算 出 类 标签 在 "住房 "属性 上 的 条 件 箭 。 

计算 出 炉 后 , 就 可 以 挑选 出 “最 有 信息 ”的 属性 了 ,按照 下 式 计 算出 信息 增益 
(InfoGain) 值 ; 

InfoGainpouwsing = Haw— Hiowinal eeit = 0.88—086= 0,.02 

所 有 属性 中 ,信息 增益 值 最 高 的 属性 就 是 要 找 的 属性 。 依 次 就 可 递归 地 构建 决策 树 了 。 

总 结 : 决策 树 既 能 够 处 理 数值 型 数据 ,也 能 够 处 理 类 别 型 数据 ,是 一 种 很 强大 的 数据 挖 
据 工 具 。 当 变量 之 间 的 关系 不 是 线性 关系 时 ,线性 回归 模型 就 不 能 正确 处 理 数据 了 ,但 是 决 
策 树 不 存在 这 样 的 问题 。 决 策 树 具有 高 效率 地 计算 以 及 打分 简单 的 特点 ,输出 结果 容易 理 
解 。 但 是 决策 树 对 训练 数据 中 的 很 小 的 变化 很 敏感 ,假如 有 一 个 很 大 的 数据 集 ,用 其 中 的 两 
个 不 同 子 集 建立 两 个 决策 树 , 会 发 现 它们 的 差距 很 大 ,即使 它们 来 自 同一 个 数据 集 。 如 果 决 
策 树 建 得 过 深 ,又 容易 导致 过 拟 合 问题 。 决 策 树 的 优 缺 点 如 表 7-16 所 示 。 


表 7-16 决策 树 比较 分 析 



































优 点 缺 点 
输入 类 型 不 受 限 制 树 结构 对 训练 集 的 细小 改变 很 敏感 
对 宛 余 的 .相关 联 的 变量 具有 抗 干扰 性 树 构造 得 过 深 容易 导致 过 拟 合 
自然 地 处 理 变量 之 间 的 关系 不 适应 用 于 依赖 多 个 变量 的 结果 
能 处 理 具 有 非 线性 关系 的 变量 不 能 很 好 地 处 理 缺 失 值 
构建 的 效率 高 实际 中 ,决策 的 规则 可 能 比较 复杂 
容易 对 测试 数据 进行 分 类 
很 多 算法 能 返回 变量 权限 值 上 的 度量 


7. 随机 森林 

在 分 布 式 环境 中 ,通常 节点 要 独立 地 进行 计算 , 且 分 布 式 环境 中 最 稀缺 的 资源 是 网 络 。 
这 样 的 情况 下 ,训练 一 个 决策 树 是 比较 困难 的 ,一 种 更 好 的 办 法 是 利用 集成 学 习 的 方法 。 对 
于 决策 树 ,可 以 在 分 布 式 环境 中 独立 地 训练 多 个 决策 树 , 利 用 多 个 决策 树 来 分 类 ,最 后 把 结 
果 聚 集 起 来 。 利 用 多 个 决策 树 来 分 类 的 方法 叫 * 随 机 森林 ”。 

随机 森林 是 由 Breiman 于 2001 年 提出 来 的 , 它 是 一 个 包含 多 个 决策 树 的 分 类 器 ,其 输 
出 的 类 别 由 树 和 输出 的 类 别 的 众 数 而 定 。 为 了 构建 多 个 不 同 的 决策 树 , 随 机 森林 采用 从 数据 
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中 随机 抽样 的 方法 。 在 之 前 决策 树 的 构建 中 ,每 个 节点 的 产生 是 通过 挑选 变量 来 生成 节点 ， 
但 是 在 随机 森林 中 ,是 从 原始 数据 中 随机 抽样 出 来 的 子 集 来 训练 决策 树 。 直 观 上 ,这 样 的 做 
法 可 能 有 点 儿 违 反 直 觉 ,但 是 ,“ 随 机 森林 ”在 与 许多 其 他 分 类 器 相 比 较 时 取得 了 很 好 的 效 
果 , 包 括 支持 向 量 机 (SVM) 、 神 经 网 络 (Neural Network) 等 ,而 且 对 过 拟 合 问题 有 很 好 的 规 
避 。 另 外 ,“ 随 机 森林 ”也 是 对 用 户 很 友好 的 工具 ,因为 它 只 有 两 个 参数 : 随机 抽样 子 集 上 的 
变量 的 数目 、 树 的 数量 。 而 且 随 机 森林 对 这 两 个 参数 也 不 敏感 。 下 面 介 绍 “ 随 机 森林 ”算法 。 

(1) 从 原始 数据 中 产生 n 个 随机 抽样 。 

(2) 对 于 每 一 个 抽样 ,训练 一 个 未 剪 枝 的 决策 树 或 回归 树 : 对 于 每 个 节点 ,不 是 在 所 有 的 
属性 中 挑选 分 割 得 最 好 的 属性 ,而 是 在 m 个 抽样 出 来 的 属性 中 挑选 出 分 割 得 最 好 的 那个 。 

(3) 对 数据 进行 预测 ,并 搜集 各 个 树 的 预测 结果 ,以 众 数 (出 现 次 数 最 多 的 值 ) 给 出 最 后 
的 预测 结果 。 

当 “ 随 机 森林 ”构建 好 以 后 ,要 对 这 个 模型 的 错误 率 进 行 衡 量 ,以 了 解 这 个 模型 的 准确 
度 。 可 以 使 用 一 种 OOB(Out-Of-Bag) 的 估计 来 衡量 。 

(1) 对 于 每 一 次 迭代 抽样 ,用 抽样 的 数据 来 训练 模型 ,用 不 在 抽样 中 的 数据 来 预测 。 

(2) 搜集 所 有 OOB 预测 的 平均 值 ,计算 错误 率 。 

通常 , 当 有 足够 多 的 树 被 生成 的 时 候 ,OOB 的 估计 结果 会 比较 准确 。 

使 用 "随机 森林 ”的 方法 时 ,需要 了 解 以 下 几 点 。 

(1) 若 想 获得 好 的 效果 , 树 的 数目 就 有 必要 随 着 属性 的 增加 而 增加 。 决 定 应 该 训练 多 
少 棵 树 的 最 好 的 方式 是 将 一 个 森林 的 预测 结果 和 它 的 子 集 的 预测 结果 做 比较 。 当 子 集 的 结 
果 和 整个 森林 的 预测 结果 一 样 好 时 ,那么 树 的 数量 就 足够 了 。 

(2) 当 挑 选 mn 个 变量 时 ,Breiman 教授 建议 分 别 尝试 将 参数 折 半 或 翻 倍 , 然 后 从 中 挑选 
出 最 好 的 。 

(3) 若 想得到 一 个 稳定 的 变量 权 值 与 距离 的 估计 ,就 有 必要 训练 很 多 棵 树 。 

(4) 当 训 练 数据 中 各 个 类 标签 的 比例 不 平衡 甚至 差别 很 大 时 ,就 有 必要 改变 预测 时 的 
规则 (不 一 定 由 众 数 决定 )。 

(5) 当 训练 数据 集 比 较 大 或 者 要 训练 的 树 的 数量 比较 多 的 时 候 , 可 以 在 同一 时 刻 只 在 
内 存 保留 一 棵 树 .这样 可 以 更 节约 内 存 。 

“随机 森林 ” 优 缺 点 比较 如 表 7-17 所 示 。 

表 7-17 “随机 森林 ”比较 分 析 
优 点 缺 ”点 

在 一 些 有 了 噪声 的 分 类 /回归 任务 上 ,“ 随 机 森 
林 ” 被 观察 到 有 过 拟 合 问题 
对 于 有 不 同 级 别 属性 的 数据 ,级 别 划 分 较 多 
的 属性 会 对 “随机 森林 ”产生 更 大 的 影响 





准确 率 很 高 





在 大 数据 集 上 的 计算 效率 很 高 


能 够 很 好 地 处 理 数量 很 多 的 输入 变量 ,比如 ,上 千 个 输 
入 变量 

它 能 给 出 变量 在 分 类 中 的 权 值 的 一 个 估计 

在 森林 构造 的 过 程 中 , 它 能 够 产生 一 个 内 部 的 无 偏见 的 
泛 化 误差 的 估计 
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优 点 缺 ”点 
它 对 于 处 理 没 有 初始 值 的 数据 是 有 效 的 方法 ,即使 当 数 
据 有 大 部 分 缺失 的 时 候 还 能 保持 准确 度 
对 于 类 标签 不 平衡 的 训练 数据 , 它 也 是 一 种 很 好 的 手段 
它 在 分 布 式 环境 上 有 很 好 的 伸缩 性 














7.5.4 时 序 模型 


在 生产 和 科学 研究 中 ,对 某 一 个 或 一 组 变量 x (71) 进行 观察 测量 ,将 在 一 系列 时 刻 4， 
to," ota(t 为 自 变 量 且 嫉 过 hs 二 … 过 4) 所 得 到 的 离散 数字 组 成 序列 集合 (1) ,z(t2),…， 
(4,) ,我 们 称 之 为 时 间 序 列 。 这 种 有 时 间 意 义 的 序列 也 称 为 动态 数据 。 这 样 的 动态 数据 在 
自然 、 经 济 及 社会 等 领域 都 是 很 常见 的 。 如 在 一 定 生态 条 件 下 , 动 植物 种 群 数量 逐 月 或 逐年 
的 消长 过 程 . 某 证 券 交易 所 每 天 的 收盘 指数 、 每 个 月 的 GNP .失业 人 数 或 物价 指数 等 。 

时 间 序 列 分 析 是 根据 系统 观测 得 到 的 时 间 序 列 数据 ,通过 曲线 拟 合 和 参数 估计 来 建立 
数学 模型 的 理论 和 方法 。 它 一 般 采 用 曲线 拟 合 和 参数 估计 方法 (如 非 线性 最 小 二 乘法 ) 进 
行 ,如 图 7-21 所 示 。 时 间 序 列 分 析 常 用 在 国民 经 济 宏观 控制 .区 域 综合 发 展 规划 、 企 业经 营 
管理 ,市 场 潜 量 预测 .气象 预报 ,水 文 预报 地震 前 兆 预报 、 环 境 污 染 控制 .生态 平衡 .天 文学 
和 海洋 学 等 方面 。 











图 7-21 时 间 序 列 构成 


时 间 序 列表 示 通 常 分 为 两 个 步骤 : 四 先 形成 散 点 图 ; @@ 根 据 图 形 走势 选择 合适 的 模 
型 。 时 间 序 列 模型 主要 有 直线 型 .指数 型 .二 次 抛物 线 型 或 组 合 模型 等 。 组 合 模型 分 为 加 法 
模型 和 乘法 模型 。 

(1) 加 法 模型 : 假定 时 间 序 列 是 基于 4 种 成 分 相 加 而 成 的 。 长 期 趋势 并 不 影响 季节 变 
动 ; Y 一 T 十 S 十 C 十 T。 

(2) 乘法 模型 : 假定 时 间 序 列 是 基于 4 种 成 分 相 乘 而 成 的 。 假 定 季 节 变 动 与 循环 变动 
为 长 期 趋势 的 函数 。 

ARMA 模型 的 全 称 是 自 回归 移动 平均 模型 (Auto Regression Moving Average 
Model) , 它 是 目前 最 常用 的 拟 合 平稳 序列 的 模型 ,又 可 细 分 为 AR 模型 (Auto Regression 
Model)、MA 模型 (Moving Average Model) 和 ARMA 模型 (Auto Regression Moving 
Average Model) 。ARIMA 模型 (Auto Regressive Integrated Moving Average Model) 又 称 
自 回归 求 和 移动 平均 模型 ,当时 间 序 列 本 身 不 平稳 的 时 候 , 如 果 它 的 增 量 , 即 的 一 次 差分 , 稳 
定 在 零点 附近 ,可 以 将 它 看 成 是 平稳 序列 。 在 实际 的 问题 中 ,所 遇 到 的 多 数 非 平稳 序列 可 以 通 
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过 一 次 或 多 次 差分 后 成 为 平稳 时 间 序 列 . 则 可 以 建立 模型 。 这 说 明 任何 非 平稳 序列 只 要 通过 
适当 阶 数 的 差分 运算 实现 差分 后 平稳 ,就 可 以 对 差分 后 序列 进行 ARIMA 模型 拟 合 了 。 
ARIMA(p,d,g) 模 型 是 指 d 阶 差分 后 自 相关 最 高 阶 数 为 p, 移 动 平均 最 高 阶 数 为 g 的 模型 , 通 
常 它 包含 p 十 g 个 独立 的 未 知 系数 。 
(1) AR(p)(p 阶 自 回归 模型 )。 
Zi 一 十 加- 十 gz 十 … 十 gozi- 十 zz 
其 中 ,ww 是 白 品 声 序列 ,6 是 常数 (表示 序列 数据 没有 0 均值 化 ) 。 
AR(p) 等 价 于 (1 一 LL 一 $2L? 一 … 一 $oL?)zx, = 6 十 
AR(p) 的 特征 方程 是 
BL)=1—L—$aL’——$oL?*=0 
AR(p) 平 稳 的 充 要 条 件 是 特征 根 都 在 单位 圆 之 外 。 
(2) MA(g)(g 阶 移动 平均 模型 ) 。 
Zt = pw Ou Guz tt Ouis 
Ti—p= (+OL+OL 二 二 OL uw = O(L)u, 
其 中 , {ww} 是 白 噪声 过 程 。 
MA(g) 平 稳 性 : 
MA(g) 是 由 本身 和 9g 个 的 滞后 项 加 权 平均 构造 出 来 的 ,因此 它 是 平稳 的 。 
MA(9) 可 道 性 (用 自 回归 序列 表示 w) 
wu = [@(L)J zx, 
可 道 条 件 : 即 [@(L)]7! 收 敛 的 条 件 。 即 9(L) 每 个 特征 根 绝 对 值 大 于 1, 即 全 部 特征 根 
在 单位 圆 之 外 。 
(3) ARMA(p,g)( 自 回归 移动 平均 过 程 )。 
Tt = Bz 二 $2xiz 二 十 Bpxip 十 6 十 iw 十 Oiti 十 Oous-z 十 … 十 Ooui-g 
BD)z = (1— Lo $aL’ Oo — poL?) x 
二 6 十 (1 十 QL 十 GL 十 十 Lu 二 6 二 +B(L)u 
@(L)z = 6+ OL)u, 
ARMA(p.g) 平 稳 性 的 条 件 是 方程 8B(L)=0 的 根 都 在 单位 圆 外 ; 可 逆 性 条 件 是 方程 
Q(L)==0 的 根 全 部 在 单位 圆 外 。 
(4) ARIMA(p,d.g)( 单 整 自 回归 移动 平均 模型 )。 
差分 算 子 
Arz Kr — Wk 区 一 下 元 (ys 
Az2z， A — Azm=i d=),=*ti= Ls (1 一 工 )2z， 
Adazr, = (1 一 L)4z， 
对 d 阶 单 整 序列 z, 一 ITC) 





















































w, = Adz, = (1 一 工 )4r， 
则 zw, 是 平稳 序列 ,于 是 可 对 re 建立 ARMA(p.g) 模 型 ,所 得 到 的 模型 称 为 r, 一 
ARIMA(p.d,g) ,模型 形式 是 
wi 二 wi 十 $2toez 十 十 Bptwrp 十 6 十 ws 十 Qiuei 十 Ozur-z 十 … 十 Osus-g 
BL)A, 一 8 十 9(CL)u 
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此 可 转化 为 ARMA 模型 。 
7.5.5 结构 优化 


用 于 分 析 多 个 变量 间 可 能 会 存在 较 多 的 信息 重复 , 若 直接 用 来 分 析 , 会 导致 模型 复杂 ， 
同时 可 能 会 引起 模型 较 大 误差 ,因此 要 初步 分 析 数据 间 的 相关 性 ,剔除 重复 因素 。 

遗传 算法 是 计算 机 科学 人 工 智 能 领域 中 用 于 解决 最 优化 的 一 种 搜索 启发 式 算法 ,是 进 
化 算法 的 一 种 。 这 种 启发 式 通常 用 来 生成 有 用 的 解决 方案 来 优化 和 搜索 问题 。 进 化 算法 最 
初 是 借鉴 了 进化 生物 学 中 的 一 些 现象 而 发 展 起 来 的 ,这 些 现象 包括 遗传 突变、 自然 选 择 以 
及 杂交 等 ,如 图 7-22 所 示 。 











开始 
U 
产生 初始 种 和 


由 
计算 适应 度 






适应 度 是 否 达 到 期 望 值 或 迭 
发 次 数 是 否 达到 最 大 值 


并 


结 来 交叉 
Uy 
计算 适应 度 








适应 度 是 否 达 到 期 望 值 或 送 
次 数 是否 达 到 最 大 值 








图 7-22 遗传 算法 过 程 图 


遗传 算法 广泛 应 用 在 生物 信息 学 、 系 统 发 生 学 、 计 算 科 学 、 工 程 学 、 经 济 学 、 化 学 、 制 造 、 
数学 ,物理 ,药物 测量 学 和 其 他 领域 之 中 。 
1. 算法 特点 


(1) 遗传 算法 从 问题 解 的 串 集 开始 搜索 ,而 不 是 从 单个 解 开 始 。 这 是 遗传 算法 与 传统 
优化 算法 的 极 大 区 别 。 传 统 优化 算法 是 从 单个 初始 值 迭 代 求 最 优 解 的 ; 容易 误 入 局 部 最 优 
解 。 遗 传 算法 从 串 集 开始 搜索 ,覆盖 面 大 ,利于 全 局 择优 。 

(2) 遗传 算法 同时 处 理 群体 中 的 多 个 个 体 , 即 对 搜索 空间 中 的 多 个 解 进行 评估 ,减少 了 
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陷入 局 部 最 优 解 的 风险 ,同时 算法 本 身 易于 实现 并 行 化 。 

(3) 遗传 算法 不 是 采用 确定 性 规则 ,而 是 采用 概率 的 变迁 规则 来 指导 它 的 搜索 方向 。 

(4) 具有 自 组 织 、 自 适应 和 自学 习性 。 遗 传 算法 利用 进化 过 程 获 得 的 信息 自行 组 织 搜 
索 时 ,适应 度 大 的 个 体 具有 和 较 高 的 生存 概率 ,并 获得 更 适应 环境 的 基因 结构 。 

灰色 系统 是 指 “ 部 分 信息 已 知 ,部 分 信息 未 知 ” 的 “小 样本 ”,“ 贫 信息 ”的 不 确定 性 系统 。 
它 通过 对 “部 分 "已 知 信息 的 生成 .开发 去 了 解 、 认 识 现实 世界 ,实现 对 系统 运行 行为 和 演化 
规律 的 正确 把 握 和 描述 。 

严格 来 说 ,灰色 系统 是 绝对 的 ,而 白色 与 黑色 系统 是 相对 的 。 社 会 经济、 农业 等 系统 的 
预测 都 属于 特征 性 灰色 系统 的 预测 。 

灰色 系统 认为 : 尽管 客观 系统 表象 复杂 ,数据 离散 ,但 它们 总 是 有 整体 功能 的 ,总 是 有 
序 的 。 因 此 , 它 必 然 潜藏 着 某 种 内 在 规律 。 关 键 在 于 要 用 适当 方式 去 挖掘 它 ,然后 利用 它 。 

2. 应 用 

(1) 数列 预测 : 即 用 观察 到 的 反映 预测 对 象 特征 的 时 间 序 列 来 构造 灰色 预测 模型 , 预 
测 未 来 某 一 时 刻 的 特征 量 , 或 达到 某 一 特征 量 的 时 间 。 

(2) 灾变 与 异常 值 预测 : 即 通过 灰色 模型 预测 异常 值 出 现 的 时 刻 , 预 测 异 常 值 什么 时 
候 出 现在 特定 时 区 内 。 

(3) 季节 灾变 与 异常 值 预测 : 通过 灰色 模型 预测 灾变 值 发 生 在 一 年 内 某 个 特定 的 时 区 
或 季节 的 灾变 预测 。 

(4) 拓扑 预测 : 将 原始 数据 作曲 线 , 在 曲线 上 按 定 值 寻找 该 定 值 发 生 的 所 有 时 点 ,并 以 
该 定点 为 框架 构成 时 点 序列 ,然后 建立 模型 预测 该 定 值 所 发 生 的 时 点 

(5) 系统 预测 : 通过 对 系统 行为 特征 指标 建立 一 组 相关 联 的 灰色 模型 ,预测 系统 中 众 
多 变量 间 的 相互 协调 关系 的 变化 ,如 图 7-23 所 示 。 
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7-23 灰色 系统 模型 可 视 化 
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7.5.6 深度 机 器 学 习 

1. 人 工 神经 网 络 

人 工 神经 网 络 (Artificial Neural Network, ANN), 也 被 称 为 神经 网 络 (Neural Network， 
NN) ,是 一 种 模拟 生物 神经 网 络 的 数学 模型 和 计算 模型 。 一 个 神经 网 络 由 一 组 相互 关联 的 
人 工 神经 元 组 成 ,并 通过 模拟 真实 的 生物 神经 系统 的 交互 作用 完成 计算 的 过 程 。 在 大 多 数 
情况 下 ,神经 网 络 是 一 个 自 适应 系统 ,通过 在 学 习 阶段 改变 外 部 输入 信息 达到 改变 神经 网 络 
结构 的 目的 。 按 照 对 生物 神经 系统 模拟 时 不 同 的 组 织 层 次 和 抽象 层次 ,神经 网 络 可 以 分 为 : 

经 元 层次 神经 网 络 ,组 合式 神经 网 络 、 网 络 层次 神经 网 络 、 神 经 系统 神经 网 络 和 智能 型 神 

经 网 络 。 按 照 神经 网 络 的 结构 和 学 习 方式 ,神经 网 络 可 以 分 为 : 前 馈 型 神经 网 络 、 反 馈 型 神 
经 网 络 .连续 型 神经 网 络 和 离散 型 神经 网 络 等 。 

神经 网 络 的 工作 方式 主要 包括 两 个 时 期 : 学 习 期 和 工作 期 。 在 学 习 期 ,神经 网 络 的 计 
算 单元 状态 不 变 ,网 络 连 接 权 值 使 用 样本 学 习 等 方法 进行 修改 ; 在 工作 期 ,神经 网 络 连接 权 
值 固定 ,而 各 计算 单元 发 生变 化 ,对 不 同 的 输入 达到 稳定 状态 。 目 前 人 工 神经 网 络 已 经 广泛 
地 应 用 到 : 函数 允 近 、 概 率 估计 、 知 识 提 取 、 模 型 分 类 、 数 据 聚 类 和 最 优化 计算 等 领域 。 

2. 支持 向 量 机 

支持 向 量 机 (Support Vector Machine,SVM) 是 一 种 有 监督 的 学 习 方 法 ,该 方法 能 够 通 
过 分 类 和 回归 模型 来 分 析 数 据 和 识别 模式 。SVM 方法 是 20 世纪 90 年 代 初 Vapnik 等 人 根 
据 统计 学 习 理 论 提 出 的 一 种 新 的 机 器 学 习 方法 , 它 以 结构 风险 最 小 化 原则 为 理论 基础 ,通过 
适当 地 选择 函数 子 集 及 该 子 集中 的 判别 函数 ,使 学 习 机 器 的 实际 风险 达到 最 小 ,保证 了 通过 
有 限 训练 样本 得 到 的 小 误差 分 类 器 ,对 独立 测试 集 的 测试 误差 仍然 较 小 。 

支持 向 量 机 的 基本 思想 是 : 首先 ,在 线性 可 分 情况 下 ,在 原 空间 寻找 两 类 样本 的 最 优 分 
类 超 平面 。 在 线性 不 可 分 的 情况 下 ,加 入 了 松弛 变量 进行 分 析 , 通 过 使 用 非 线性 映射 将 低 维 
输入 空间 的 样本 映射 到 高 维 属性 空间 使 其 变 为 线性 情况 ,从 而 使 得 在 高 维 属性 空间 采用 线 
性 算法 对 样本 的 非 线性 进行 分 析 成 为 可 能 ,并 在 该 特征 空间 中 寻找 最 优 分 类 超 平面 。 其 次 ， 
它 通过 使 用 结构 风险 最 小 化 原理 在 属性 空间 构建 最 优 分 类 超 平面 ,使 得 分 类 器 得 到 全 局 最 
优 ,并 在 整个 样本 空间 的 期 望 风险 以 某 个 概率 满足 一 定 上 界 。 

其 突出 的 优点 表现 在 : 四 基于 统计 学 习 理论 中 结构 风险 最 小 化 原则 和 VC 维 理论 , 具 
有 和 良好 的 泛 化 能 力 , 即 由 有 限 的 训练 样本 得 到 的 小 的 误差 能 够 保证 使 独立 的 测试 集 仍 保持 
小 的 误差 。 回 支持 向 量 机 的 求解 问题 对 应 的 是 一 个 凸 优化 问题 ,因此 局 部 最 优 解 一 定 是 全 
局 最 优 解 。 回 核 函 数 的 成 功 应 用 ,将 非 线 性 问题 转化 为 线性 问题 求解 。 轩 分 类 间隔 的 最 大 
化 ,使 得 支持 向 量 机 算法 具有 较 好 的 鲁 棒 性 。 由 于 SVM 自身 的 突出 优势 ,因此 被 越 来 越 多 
的 研究 人 员 作 为 强 有 力 的 学 习 工 具 . 以 解决 模式 识别 .回归 估计 等 领域 的 难题 。 

3. 马尔 可 夫 聚 类 算法 

马尔 可 夫 聚 类 算法 (the Markov Cluster Algorithm, MCL) 是 图 聚 类 方法 的 一 种 ,该 算 
法 核心 的 步骤 是 : 使 用 一 个 随机 过 程 访问 密集 群集 ,直到 随机 访问 所 有 的 顶点 之 后 退出 访 
问 这 个 群集 。 然 而 马尔 可 夫 聚 类 算法 不 是 实际 的 模拟 随机 访问 过 程 , 而 是 人 为 不 断 地 修改 
访问 和 矩阵 的 转移 概率 值 。 马 尔 可 夫 聚 类 算法 的 伪 代 码 如 下 。 
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(1) sparse autoencoder。deep learning 领域 比较 重要 的 一 类 算法 一 一 sparse autoencoder， 
即 稀 琉 模式 的 自动 编码 。sparse autoencoder 是 一 种 自动 提取 样本 (如 图 像 ) 特 征 的 方法 。 
把 输入 层 激 活 度 (如 图 像 ) 用 隐 层 激活 度 表征 ,再 把 隐 层 信息 在 输出 层 还 原 。 这 样 隐 层 上 的 
信息 就 是 输入 层 的 一 个 压缩 过 的 表征 , 且 其 信息 入 会 减 小 。 并 且 这 些 表征 很 适合 作 分 类 器 。 
我 们 知道 ,deep learning 也 叫做 无 监督 学 习 , 所 以 这 里 的 sparse autoencoder 也 应 是 无 监督 
的 。 如 果 是 有 监督 的 学 习 的 话 ,在 神经 网 络 中 ,只 需要 确定 神经 网 络 的 结构 就 可 以 求 出 损失 
函数 的 表达 式 了 (当然 ,该 表达 式 需 对 网 络 的 参数 进 
行 “惩罚 ”, 以 便 使 每 个 参数 不 要 太 大 ) ,同时 也 能 够 
求 出 损失 函数 偏 导 函数 的 表达 式 , 然 后 利用 优化 算 
法 求 出 网 络 最 优 的 参数 。 应 该 清楚 的 是 ,损失 函数 
的 表达 式 中 ,需要 用 到 有 标注 值 的 样本 。 那 么 这 里 
的 sparse autoencoder 为 什么 能 够 无 监督 学 习 呢 ? 
难道 它 的 损失 函数 的 表达 式 中 不 需要 标注 的 样本 
值 ( 即 通常 所 说 的 y 值 ) 么 ? 其 实在 稀疏 编码 中 “ 标 
注 值 ? 也 是 需要 的 ,只 不 过 它 的 输出 理论 值 是 本 身 
输入 的 特征 值 zx, 其 实 这 里 的 标注 值 y=x。 这 样 做 
的 好 处 是 ,网 络 的 隐 含 层 能 够 很 好 地 代替 输入 的 特 
征 , 因 为 它 能 够 比较 准确 地 还 原 出 那些 输入 特征 ”Layer 
值 。sparse autoencoder 的 一 个 网 络 结构 如 图 7-24 图 7-24 sparse autoencoder 网 络 结构 图 
所 示 。 

(2) 损失 函数 。 无 稀 朴 约束 时 网 络 的 损失 函数 表达 式 如 下 


= i 
J (Wh) =[ 寺 2J OW,6; z°,y°) | DD Ww) 
m f=1 二 


l=1 i=1 j=1 


1 el i ml ss tl 
=[ 寺 (Bl 一 ) 上 名 

稀 草 编码 是 对 网 络 的 隐 含 层 的 输出 有 了 约束 , 即 隐 含 层 节点 输出 的 平均 值 应 尽量 为 0， 
这 样 的 话 , 大 部 分 的 隐 含 层 节点 都 处 于 非 激 活 状态 。 因 此 ,此 时 的 sparse autoencoder 损失 


函数 表达 式 为 


hra(x) 





Layer L» 





Layer L3 


各 
J oare Wb) = J (Wb) +BO) KLGpN BG) 
二 =1 
后 面 一 项 为 KL 距离 ,其 表达 式 如 下 


KLCo15) = plog L+(1—plog 1—e 
pi 1—p; 








隐 含 层 节点 输出 平均 值 求法 如 下 
全 = 1 Hap (zo)] 
i=1 


其 中 的 参数 一 般 取 很 小 ,比如 说 0. 05, 也 就 是 小 概率 发 生 事件 的 概率 。 这 说 明 要 求 隐 
含 层 的 每 一 个 节点 的 输出 均值 接近 0. 05( 其 实 就 是 接近 0, 因 为 网 络 中 激活 函数 为 sigmoid 
函数 ) ,这样 就 达到 稀疏 的 目的 了 。KL 距离 在 这 里 表示 的 是 两 个 向 量 之 间 的 差异 值 。 从 约 


因数 据 -二 Iz 
束 函 数 表 达 式 中 可 以 看 出 ,差异 越 大 则 "惩罚 越 大 ”, 因 此 最 终 的 隐 含 层 节点 的 输出 会 接近 

0 05. 
假设 有 一 个 固定 样本 集 {Cx 了 ,yD),…,(z”,y”)}), 它 包含 m 个 样 例 。 可 以 用 批量 
梯度 下 降 法 来 求解 神经 网 络 。 具体 来 讲 ， 人 其 代价 函数 为 


J(W,b; zy) = 六 hws zr)— yl 


这 是 一 个 (二 分 之 一 的 ) 方 差 代 价 函 数 。 给 定 一 个 包含 m 个 样 例 的 数据 集 ,可 以 定义 整 
体 代价 函数 为 


1 区 0 
J (W,0) =[ 志 D1 OW z°,y°) | 3 > Sw 
ml 了 


-[+> 舍 lawscze)y 一 ye 1 小 上 3 3 Twpy 


i=1 {=1 i=1 j=! 


以 上 公式 中 的 第 一 项 JW ,5b) 是 一 个 均 方差 项 。 第 二 项 是 一 个 规则 化 项 (也 叫 权 重 衰 
减 项 ), 其 目的 是 减 小 权重 的 幅度 ,防止 过 度 拟 合 。 权 重 衰减 参数 4 用 于 控制 公式 中 两 项 的 
相对 重要 性 。 在 此 重申 一 下 这 两 个 复杂 函数 的 含义 : J(W ,5b; x,y) 是 针对 单个 样 例 计算 得 
到 的 方差 代价 函数 ; J(W ,4b) 是 整体 样本 代价 函数 , 它 包 含 权重 衰减 项 。 

以 上 的 代价 函数 经 常 被 用 于 分 类 和 回归 问题 。 在 分 类 问题 中 ,我 们 用 y=0 或 1 来 代表 
两 种 类 型 的 标签 ,这 是 因为 sigmoid 激活 函数 的 值 域 为 L0,1]; 如 果 使 用 双 曲 正切 型 激活 函 
数 ,那么 应 该 选用 一 1 和 十 1 作为 标签 。 对 于 回归 问题 ,首先 要 变换 输出 值 域 y, 以 保证 其 范 
围 为 [0,1]( 同 样 地 ,如 果 使 用 双 曲 正切 型 激活 函数 ,要 使 输出 值 域 为 [一 1,1])。 

我 们 的 目标 是 针对 参数 W 和 4 来 求 其 函数 J(W ,6) 的 最 小 值 。 为 了 求解 神经 网 络 , 需 
要 将 每 一 个 参数 WP 和 4b? 初始 化 为 一 个 很 小 的 、 接 近 零 的 随机 值 (比如 说 ,使 用 正 态 分 布 
Normal(0,c2) 生 成 的 随机 值 , 其 中 设置 为 0.01) ,之 后 对 目标 函数 使 用 诸如 批量 梯度 下 降 
法 的 最 优化 算法 。 因 为 J(W .5) 是 一 个 非 凸 函数 ,梯度 下 降 法 很 可 能 会 收敛 到 局 部 最 优 解 ; 
但 是 在 实际 应 用 中 ,梯度 下 降 法 通常 能 得 到 令 人 满意 的 结果 。 最 后 ,需要 再 次 强调 的 是 ,要 
将 参数 进行 随机 初始 化 ,而 不 是 全 部 置 为 零 。 如 果 所 有 参数 都 用 相同 的 值 作为 初始 值 ,那么 
所 有 隐藏 层 单元 最 终 会 得 到 与 输入 值 有 关 的 、 相 同 的 函数 (也 就 是 说 ,对 于 所 有 i,W 中 都 会 
取 相 同 的 值 ,那么 对 于 任何 输入 xz 都 会 有 : oa 知 一 a 因 一 和 一 …)。 随 机 初始 化 的 目的 是 使 
对 称 失效 。 

(3) 反 向 传播 算法 梯度 下 降 法 中 每 一 次 迭代 都 按照 如 下 公式 对 参数 W 和 进行 更 新 


Bb) 
WY = WY —a sm) (W,0) 
aW® 





bP? 一 0 一 了 (W.0) 


其 中 ,a 是 学 习 速 率 。 其 中 关键 步骤 是 计算 偏 导数 。 现 在 来 讲 一 下 反 向 传播 算法 , 它 是 
计算 偏 导数 的 一 种 有 效 方法 。 


首先 来 讲 一 下 如 何 使 用 反 向 传播 算法 来 计算 7 亲 


这 两 项 是 单个 样 例 (z,y) 的 代价 函数 JW, x,y) 的 偏 导数 。 一 旦 求 出 该 偏 导数 ,就 可 以 
推导 出 整体 代价 函数 J(W ,5) 的 偏 导数 


= (Wo by xs) (Why ry)s 
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le 9 D 0 
2 Wm Wb xz?,y°) Hawg 


mf 


9 
wl Wb) —| 
a 








9 CY 9 站“ 通 
5] (Wb) DD Fs] (Wsbyz™,y®) 
9bi 11 9b: 


以 上 两 行 公式 稍 有 不 同 , 第 一 行 比 第 二 行 多 出 一 项 ,是 因为 权重 衰减 是 作用 于 W 而 不 
是 2。 反 向 传播 算法 的 思路 如 下 : 给 定 一 个 样 例 (z,y) ,首先 进行 “前 向 传导 ”运算 ,计算 出 
网 络 中 所 有 的 激活 值 , 包 括 hw,s(z) 的 输出 值 。 之 后 ,针对 第 ! 层 的 每 一 个 节点 i 计算 出 其 
“ 残 差 "88” ,该 残 差 表明 了 该 节点 对 最 终 输 出 值 的 残 差 产生 了 多 少 影响 。 对 于 最 终 的 输出 节 
点 ,可 以 直接 算出 网 络 产生 的 激活 值 与 实际 值 之 间 的 差距 ,我 们 将 这 个 差距 定义 为 6"”( 第 
nn 层 表 示 输 出 层 )。 对 于 隐藏 单元 如 何 处 理 呢 ?我 们 将 基于 节点 ( 译 者 注 : 第 /十 1 层 节点 ) 
残 差 的 加 权 平均 值 计算 6 ,这 些 节点 以 af? 作为 输入 。 下 面 将 给 出 反 向 传导 算法 的 细节 。 

进行 前 馈 传导 计算 ,利用 前 向 传导 公式 ,得 到 La: ,Ls,… 直 到 输出 层 Lv 的 激活 值 。 

对 于 第 ni 层 ( 输 出 层 ) 的 每 个 输出 单元 i, 根据 以 下 公式 计算 残 差 











p=) ec) 
6 一 3 Wb; i 
= ee 2 
= Ben 了 中 y hw (x) | 
Su 
二 六 下 了 
-en 2 2 ap ) 


-2 115 — f(z ))? 
Dz 2 A yi 好 
=— (y:— fz)) 。 f (zf) 


=— (yi—aw).。 f(z) 


对 /== 一 1 一 2,m 一 3,…,2 的 各 个 层 , 第 1 层 的 第 i 个 节点 的 残 差 计算 方法 如 下 


SH 











8612 一 ( SW )f ‘=? ) 
j=1 
6 = jr Wb; Xx,y) 
a_1 
= Fm | y— hw Cx) | 
sw 
9 1 
有 Sy am 
92 2 yj — a 
5S 
一 玛 | 了 一 ao) 
二 i 
5, 
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= of (Fo) 
Su 
8 3 人 7 


= tf 








一 3 VC) 
d= 


所 
和 一 1 


-( Wa jc 
a 


将 上 式 中 的 一 1 与 nw 的 关系 替换 为 ! 与 /十 1 的 关系 ,就 可 以 得 到 


S, 
+1 


07 = (DP WE )f' C2) 
本 

以 上 逐次 从 后 向 前 求 导 的 过 程 即 为 " 反 向 传导 ”的 本 意 所 在 。 
计算 我 们 需要 的 偏 导数 ,计算 方法 如 下 


WW ,03 yy) = a 


lr) Wobs xy) = OD 


最 后 ,用 和 矩阵- 向量 表 示 法 重 写 以 上 算法 。 使 用 。 表 示 向 量 乘积 运算 符 ( 在 MATLAB 
或 Octave 里 用 *. x ”表示 ,也 称 作 阿达 马 乘积 ) 。 若 a 王 0， c, 则 ai 三 bic;。 那 么 . 反 向 传播 算 
法 可 表示 为 以 下 几 个 步骤 。 
(1) 进行 前 馈 传导 计算 ,利用 前 向 传导 公式 ,得 到 Laz,Ls,… 直 到 输出 层 L 的 激活 值 。 
(2) 对 输出 层 ( 第 nn 层 ) ,计算 
OD 一 一 (y 一 aoo) 。 挛 (zeooD ) 
(3) 对 于 /= 一 1,m 一 2,m4 一 3,…,2 的 各 层 , 计 算 
Fd ((W®? i | f(z°) 
(4) 计算 最 终 需 要 的 偏 导数 值 
Wo W,b; zy) = OH (a )T 
VIW,b; Try) = OY 
实现 中 应 注意 : 在 以 上 的 第 (2) 步 和 第 (3) 步 中 ,需要 为 每 一 个 i 值 计算 其 (x? )。 假 
设 f(x) 是 sigmoid 函数 ,并 且 我 们 已 经 在 前 向 传导 运算 中 得 到 了 ey 那么 ,使 用 早先 推导 
出 的 (zx) 表达 式 ,就 可 以 计算 得 到 f(z?)=a?? (1 一 a?)。 
最 后 .我 们 将 对 梯度 下 降 算法 做 个 全 面 总 结 。 在 下 面 的 伪 代 码 中 , AW 是 一 个 与 矩阵 
W” 维度 相同 的 矩阵 ,Ab" 是 一 个 与 5” 维度 相同 的 向 量 。 注 意 这 里 “AW” ”是 一 个 矩阵 ,而 
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不 是 “A 与 W” 相 乘 "。 下 面 实现 批量 梯度 下 降 法 中 的 一 次 迭代 。 
对 于 所 有 /, 令 AW” :二 0,Ab” :=0( 设 置 为 全 零 矩阵 或 全 零 向 量 ) 。 
(1) 对 于 ;一 1 到 m, 使 用 反 向 传播 算法 计算 Vw? Wb; zx,y) 和 VW? J(W ,0; zx,y)。 
(2) 计算 AW :=AW 二 Wo?J(W,b; x,y)。 
(3) 计算 Ab? :=Ab 十 WP J(W,b; zy)。 
更 新 权重 参数 : 


Wo =W® 一 | (去 Aw® )+aw®] 
m 


bP? =6? —al 1 Ap] 


现在 ,可 以 重复 梯度 下 降 法 的 迭代 步骤 来 减 小 代价 函数 J(W,5) 的 值 ,进而 求解 神经 
网 络 。 


7.6 大 数据 语义 分 析 知 识 发 现 


知识 发 现 是 人 类 的 主要 知识 活动 之 一 ,当前 的 知识 活动 也 越 来 越 多 地 基于 网 络 数 据 资 
源 环 境 。 在 网 络 资源 环境 向 “语义 网 ”阶段 过 渡 , 并 已 经 进入 大 数据 网 络 时 代 的 时 候 , 知 识 发 
现 必然 面临 新 的 机 会 和 挑战 。 因 此 ,知识 发 现 也 必 将 是 大 数据 发 展 和 完善 的 主要 动力 。 大 
数据 时 代 的 知识 发 现 是 以 结构 化 数据 和 非 结 构 化 数据 为 基础 ,通过 数据 采集 .数据 抽取 、 数 
据 清 洗 .数据 转化 .数据 加 载 和 数据 挖掘 等 过 程 ,发 现 可 理解 .可 用 的 新 知识 内 容 , 并 能 在 一 
些 领域 内 加 以 应 用 的 知识 。 

从 知识 发 现 研究 角度 来 看 ,基于 大 数据 的 知识 发 现 是 知识 发 现 的 特殊 案例 。 广 义 的 知 
识 发 现 更 加 关注 于 从 数据 源 中 发 现 知识 的 整个 过 程 , 包 括 数据 是 如 何 存储 和 访问 ,算法 如 何 
自动 处 理 数据 并 且 在 大 量 数据 的 环境 下 有 效 运行 ,结果 如 何 解释 和 可 视 化 ,以 及 整个 过 程 中 
人 机 交互 如 何 建 模 和 支持 。 大 数据 本 身 是 应 用 新 技术 ,收集 .组 织 和 存储 的 数据 资源 ,是 基 
于 互联 网 发 展 全 球 共享 超级 数据 库 , 如 图 7-25 所 示 。 基 于 大 数据 的 知识 活动 应 当 是 在 遵循 
数据 库 知 识 发 现 的 一 般 规 律 时 ,考虑 数据 的 组 织 方式 、 应 用 工具 和 技术 、 资 源 环境 等 综合 
因素 。 

从 知识 发 现 的 应 用 角度 来 看 ,知识 发 现 是 大 数据 的 一 种 关键 和 高 层 的 应 用 。 随 着 互联 
网 和 大 数据 的 快速 发 展 ,面向 语义 网 的 信息 收集 、 组 织 、 存 储 和 访问 的 技术 和 方法 也 应 接 不 
暇 ,以 大 数据 为 基础 的 数据 对 象 、 网 络 环境 、 语 义 关 系 模型 . 存 取 标准 (HTTP URI) 和 网 络 
应 用 (浏览 .搜索 等 ) 为 知识 发 现 提供 了 新 的 路 径 。 如 何 根据 大 数据 的 特点 和 优势 ,帮助 人 们 
更 容易 、 更 准确 、 更 全 面 、 更 高 效 地 发 现 所 需要 的 信息 .最 终 获 取 准 确 、 实 用 、 即 时 的 知识 是 大 
数据 知识 发 现 研究 的 主要 方向 。 

7.6.1 大 数据 知识 发 现 过 程 

大 数据 的 知识 发 现 是 大 数据 的 高 级 应 用 ,是 在 大 数据 理论 ,技术 、 工 具 和 资源 环境 的 基 
础 上 的 创新 性 的 知识 活动 。 基 于 大 数据 的 知识 发 现 过 程 遵 循 知识 发 现 (Knowledge 
Discovery in Database,KDD) 的 一 般 规 律 . 同 时 因为 技术 架构 和 网 络 资源 环境 的 变化 而 有 其 
独特 性 。 其 过 程 如 图 7-26 所 示 。 
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基于 大 数据 的 知识 发 现 过 程 包括 数 据 集成 数据 选择 .数据 整合 和 数据 挖掘 等 基本 
阶段 。 

1. 数据 集成 

大 数据 知识 发 现 的 数据 集成 主要 是 来 源 于 不 同 的 业务 系统 数据 库 、 互 联网 文本 、 音 频 、 
视频 等 数据 在 逻辑 上 或 物理 上 有 机 地 集中 ,从 而 提供 全 面 的 数据 共享 。 通常 采用 联邦 式 、 基 
于 中 间 件 模型 和 数据 仓库 等 方法 来 构造 集成 的 系统 。 通 过 应 用 间 的 数据 交换 从 而 达到 集 
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成 ,主要 解决 数据 的 分 布 性 和 异 构 性 的 问题 ,其 前 提 是 被 集成 应 用 必须 公开 数据 结构 , 即 必 

须 公 开 表 结构 、 表 间 关 系 、 编 码 的 含义 等 。 这 一 数据 准备 阶段 本 身 也 包含 相关 数据 的 链接 关 

系 和 构建 过 程 ,同时 为 基于 大 数据 的 知识 发 现 提供 了 丰富 的 语义 互 连 的 数据 源 。 

2. 数据 选择 

大 数据 网 络 中 数据 源 数量 巨大 ,并 且 动 态 增 长 ,它们 来 自 不 同 的 数据 提供 者 ,属于 不 同 
的 领域 ,采用 不 同 的 本 体 或 者 词 表 术 语 描 述 概 念 ,使 用 不 同 的 访问 方式 。 在 这 样 的 海量 、 异 
构 和 动态 的 数据 源 上 进行 知识 发 现 , 数 据 选择 是 非常 重要 的 步骤 。 如 何 能 够 根据 用 户 查 询 
需求 识别 和 筛选 出 相关 的 数据 源 , 同 时 兼顾 完整 性 、 准 确 性 和 效率 性 ,是 基于 大 数据 知识 发 
现 的 关键 。 

3. 数据 整合 

数据 整合 基于 ETL 的 基本 原则 进行 ,其 按照 统一 的 规则 集成 并 提高 数据 的 价值 ,是 负 
责 完 成 数据 从 数据 源 向 目标 数据 仓库 转化 的 过 程 ,是 实施 数据 智能 管理 的 重要 步骤 。 主 要 
分 为 数据 抽取 数据 清洗 .数据 转换 和 数据 装载 4 个 过 程 。 

数据 抽取 是 指 将 数据 从 各 种 原始 的 业务 系统 中 读 取出 来 ,这 是 所 有 工作 的 前 提 , 在 本 系 
统 中 , 当 数据 收集 工作 完成 后 ,传递 给 数据 整合 模块 即 实 现 了 数据 抽取 过 程 。 数 据 清 洗 是 对 
数据 进行 重新 审查 和 校 验 的 过 程 ,目的 在 于 删除 重复 信息 、 纠 正 存 在 的 错误 ,并 保障 数据 一 
致 性 。 由 于 数据 来 源 不 同 ,如 物 联 网 、 互 联网 和 内 部 业务 系统 的 数据 ,因此 避免 不 了 有 的 数 
据 是 错误 数据 ,有 的 数据 相互 之 间 有 冲突 ,或 者 有 的 数据 是 无 用 数据 ,数据 清洗 步骤 正 是 要 
把 这 些 数据 处 理 掉 。 数 据 转换 是 指 按照 预先 设计 好 的 规则 将 抽取 的 数据 进行 转换 , 使 本 来 
异 构 的 数据 格式 能 统一 起 来 。 由 于 网 络 中 大 量 的 数据 是 非 结 构 化 的 数据 ,因此 进行 适当 的 
数据 转换 操作 ,将 这 些 数 据 统一 起 来 , 变 成 可 处 理 的 形式 是 很 有 必要 的 。 数 据 装载 是 指 将 转 
换 完 的 数据 按 计划 增 量 或 全 部 导入 到 分 布 式 存储 系统 中 ,这 是 数据 整合 的 最 后 一 步 , 也 即 按 
照 一 定 的 规则 将 整合 后 的 数据 传送 到 分 布 式 存储 系统 中 。 

4. 数据 挖掘 

数据 挖掘 是 知识 发 现 的 关键 步骤 ,大 数据 知识 发 现 除了 结构 化 数据 挖掘 外 ,还 有 非 结构 
化 数据 挖掘 。 其 中 包括 文本 挖掘 和 视频 挖掘 。 

文本 挖掘 是 一 个 从 非 结构 化 文本 信息 中 获取 用 户 感 兴趣 或 者 有 用 的 模式 ,对 具有 丰富 
语义 的 文本 进行 分 析 从 而 理解 其 所 包含 的 内 容 和 意义 的 过 程 。 其 中 被 普遍 认可 的 文本 挖掘 
定义 如 下 : 文本 挖掘 是 指 从 大 量 文本 数据 中 抽取 事先 未 知 的 、 可 理解 的 .最 终 可 用 的 知识 的 
过 程 , 同 时 运用 这 些 知识 更 好 地 组 织 信息 以 便 将 来 参考 。 

我 们 在 日 常生 活 中 所 能 接触 到 的 最 普遍 的 信息 存储 形式 就 是 文本 ,研究 表明 一 个 企业 
80% 的 信息 载体 是 文本 文件 。 文 本 挖掘 是 一 个 多 学 科 领 域 ,涉及 信息 检索 、 文 本 分 析 、 文 本 
分 类 与 聚 类 、 可 视 化 数据 库 技术 、 机 器 学 习 和 数据 挖掘 。 文 本 挖掘 与 三 个 文本 处 理 技术 相 
关 : 信息 检索 (Information Retrieval) ,文本 聚 类 与 分 类 (Text Classification and Clustering) 
以 及 信息 抽取 (Information Extraction) 。 信 息 检 索 是 指 信息 按 一 定 的 方式 组 织 起 来 ,并 根 
据 信息 用 户 的 需要 和 查询 进行 提问 ,从 大 量 的 文本 集中 找 出 有 关 信 息 的 过 程 和 技术 。 信 息 
检索 主要 是 基于 统计 的 方法 来 计算 理想 结果 与 文本 间 的 相关 性 。 信 息 检索 侧重 于 发 现 和 抽 
取 文 本 集中 的 信息 ,而 没有 发 掘 出 新 的 信息 。 文 本 分 类 是 指 可 以 将 文本 分 到 预先 定义 好 的 
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类 别 里 的 文本 组 织 技术 ,而 文本 聚 类 主要 是 依据 著名 的 聚 类 假设 : 同类 的 文档 相似 度 较 大 ， 
而 不 同类 的 文档 相似 度 较 小 ,基于 文本 所 包含 信息 的 相似 度 将 文本 聚集 。 文 本 分 类 和 聚 类 
只 是 将 文本 的 内 容 注释 成 为 相关 的 关键 词 列表 ,也 不 能 导致 新 的 信息 被 发 现 。 信 息 抽 取 是 
把 文本 里 包含 的 信息 进行 结构 化 处 理 , 变 成 表格 一 样 的 组 织 形式 。 输 入 信息 抽取 的 是 原始 
文本 ,输出 的 是 固定 格式 的 信息 点 。 信 息 点 从 各 种 各 样 的 文档 中 被 抽取 出 来 ,然后 以 统一 的 
形式 集成 在 一 起 。 

视频 挖掘 分 为 广义 的 视频 挖掘 和 狭义 的 视频 挖掘 。 广 义 的 视频 挖掘 ,是 从 大 量 视频 数 
据 中 自动 提取 视频 的 类 别 、 结 构 .语义 等 知识 ,并 且 基 于 这 些 知识 采用 传统 的 数据 挖掘 方法 
或 者 新 的 视频 挖掘 方法 ,发 现 视频 数据 或 者 数据 集中 的 关联 ,趋势 .异常 等 隐 含 的 ,有 价值 
的 、 可 理解 的 模式 。 狭 义 的 视频 挖掘 ,不 包括 为 弥补 "语义 鸿沟 ?所 进行 的 知识 挖掘 , 仅 指 从 
视频 数据 或 数据 集中 发 现 内 容 间 的 关联 趋势 .异常 等 隐 含 的 有 价值 的 .可 理解 的 模式 。 

视频 的 分 析 和 应 用 (同样 适用 于 音频 ,图 像 ) 目 前 处 于 初级 阶段 ,同时 在 挖掘 技术 上 还 面 
临 着 诸多 挑战 ,如 特征 的 有 效 提 取 和 快速 检索 ,针对 海量 文件 的 分 布 式 并 行 挖 掘 算法 改造 
等 。 由 于 不 同 领域 的 特点 和 应 用 目的 不 尽 相 同 , 需 要 针对 具体 关联 领域 研究 开发 新 的 挖掘 
方法 。 

5. 大 数据 可 视 化 


如 今 ,数据 生产 的 速度 远 远 超过 了 数据 消化 的 速度 ,数据 类 型 也 不 仅仅 是 结构 化 的 ,这 
些 数据 属性 的 变化 为 数据 交互 和 展示 带 来 了 新 的 挑战 ,如 实时 数据 可 视 化 分 析 报 告 ,交互 式 
和 动态 图 形 或 报告 的 可 视 化 及 海量 数据 的 可 视 化 等 。 传 统 的 结构 化 数据 统计 分 析 方法 和 可 
视 化 展示 方式 就 很 难 满足 快速 地 掌握 数据 内 部 规律 和 变化 趋势 的 需要 。 

非 结构 的 可 视 化 技术 并 不 一 定 能 准确 给 出 计算 结果 ,但 其 价值 在 于 能 够 支持 快速 地 找 
出 这 些 结果 。 数 据 的 内 部 规律 和 变化 趋势 不 是 由 数字 而 是 通过 可 视 化 对 象 来 描述 的 。 

如 图 7-27 和 图 7-28 所 示 , 利 用 探索 驱动 .Fail-fast 的 方法 分 析 非 结构 化 数据 ,以 便于 更 
好 地 理解 业务 问题 。 
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7.6.2 大 数据 知识 发 现 技术 框架 


实现 大 数据 知识 发 现 , 运 用 大 数据 技术 从 数据 源 数据 集成 到 知识 获取 和 展示 应 用 是 一 
个 综合 系统 化 的 过 程 ,主要 技术 应 用 归纳 如 下 。 

(1) 数据 采集 技术 (条 码 、 二 维 码 、 传 感 器 .RFID.GIS .GPS .生物 识别 、 移 动 技术 等 ); 

(2) 数据 整合 与 管理 (去 品 、 排 重 ; ETL/ELT; 元 数据 管理 ; 主 数据 管理 ; 数据 质量 
管理 ); 

(3) 存储 技术 (分 布 式 文件 ; 行 、 列 存储 ; NewSQL DB; NoSQL DB; 云 存 储 ; 
体 机 ); 

(4) 语义 技术 (量化 数据 、 文 本 、 视 频 、 声 音 和 图 像 : 用 于 数据 挖掘 、 机 器 学 习 和 知识 
管理 ); 

(5) 计算 技术 (网 格 计算 :分 布 式 计算 ; 并 行 计算 、 内 存 计算 、 流 线 批 处 理 、 实 时 交互 计 
算 , 流 计算 ; 计算 资源 虚拟 化 等 ); 

(6) 分 析 技 术 (ROLAP、MOLAP Hive .Impala Shark 等 ); 

(7) 数据 挖掘 (R 语言 .Mahout 算法 库 & 行业 模型 库 )， 

(8) 数据 可 视 化 (设备 多 样 化 ; 文本 、 地 图 、 仪 表 板 技术 ; 立体 可 视 化 .流量 可 视 化 、 可 视 
化 交互 等 ); 

(9) 数据 安全 (用 户 .认证 ,授权 、 审 计 ; 数据 脱 敏 ; 合 规 和 企业 内 控 ); 

(10) 运 维 管理 工具 (资源 管理 .调度 管理 部署 管 理 ,流程 管理 ,监控 ; PasS 管理 等 ) 。 


7.6.3 大 数据 知识 发 现 专家 系统 


专家 系统 是 一 个 智能 计算 机 程序 系统 ,其 内 部 具有 大 量 专 家 水 平 的 某 个 领域 知识 与 经 
能 够 利用 人 类 专家 的 知识 和 解决 问题 的 方法 来 解决 该 领域 的 问题 。 也 就 是 说 ,专家 系统 
一 个 具有 大 量 专 门 知识 与 经 验 的 程序 系统 , 它 应 用 人 工 智 能 技术 ,根据 某 个 领域 一 个 或 多 
dered tae LO an 
和 全 证 国生 和 问题 。 
当前 的 研究 涉及 有 关 专 家 系统 设计 的 各 种 问题 。 这 些 系统 是 在 某 个 领域 的 专家 (他 可 
tie de ) 与 系统 设计 者 之 间 经 过 艰苦 的 反复 交换 意见 之 后 建立 起 来 
。 在 已 经 建立 的 专家 咨询 系统 中 ,有 能 够 诊断 疾病 的 (包括 中 医 诊断 智能 机 ) ,估计 潜在 石 
0 研究 复杂 有 机 化 合 物 结构 的 以 及 提供 使 用 其 他 计算 机 系统 的 参考 意见 等 。 发 
展 专家 系统 的 关键 是 表达 和 运用 专家 知识 , 即 来 自 人 类 专家 的 并 已 被 证 明 对 解决 有 关 领 域 
内 的 典型 问题 是 有 用 的 事实 和 过 程 。 专 家 系统 和 传统 的 计算 机 程序 最 本 质 的 不 同 之 处 在 于 
ete tot ee 
础 上 做 出 结 
2 般 包括 和 解释、 预测、 诊断、 设计、 规划、 监视、 修理 、 指 导 和 控 
制 等 。 高 性 能 的 专家 系统 也 已 经 从 学 术 研 究 开 始 进入 实际 应 用 研究 。 随 着 人 工 智 能 整体 水 
平 的 提高 ,专家 系统 也 获得 发 展 。 基 于 大 数据 支持 处 理 下 的 专家 系统 有 分 布 式 专家 系统 和 
协同 式 专家 系统 等 。 在 新 一 代 专 家 系统 中 ,不 但 采用 基于 规则 的 方法 ,而 且 采 用 基于 模型 的 
原理 。 如 图 7-29 所 示 ,知识 发 现 专家 系统 模型 图 ,主要 包括 KDD 集成 .协调 器 、 人 机 交互 知 
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图 7-29 知识 发 现 专家 系统 模型 图 


1. KDD 集成 


在 知识 发 现 系统 中 ,KDD 算法 在 专家 系统 知识 库 的 引导 下 ,由 R 协调 器 对 基本 数据 库 
进行 聚焦 ,由 S 协调 器 中 止 挖掘 进程 。 

R( 聚 焦 ) 协 调 器 根据 专家 系统 知识 库 对 数据 源 进 行 聚焦 ,从 而 得 到 挖掘 数据 表 。R 协 
调 器 实现 以 下 三 种 聚焦 。 

(1) 知识 类 型 聚焦 。 通 过 对 专家 系统 知识 库 中 相应 知识 体 的 分 析 ,R 协调 器 可 以 建议 
用 户 应 该 挖掘 什么 类 型 的 知识 ,比如 分 类 规则 还 是 回归 式 。 

(2) 数据 聚焦 。R 协调 器 抽取 出 和 专家 系统 知识 库 中 相应 知识 体 相关 的 属性 字段 ,组 
成 挖掘 数据 表 。 那 些 知识 库 中 没有 出 现 的 字段 ,将 不 会 在 挖掘 数据 表 中 。 这 使 得 挖掘 数据 
表 更 具有 针对 人 性。 

(3) 知识 形式 聚焦 。 这 主要 针对 关联 规则 挖掘 和 分 类 规则 挖掘 而 言 。 通 过 一 种 规则 模 
板 的 形式 ,R 协调 器 可 以 指定 要 挖掘 的 规则 的 具体 形式 ,从 而 挖掘 更 感 兴趣 的 知识 。 规 则 模 
板 可 以 由 RR 协调 器 分 析 知 识 库 得 到 。 

如 果 客 观 知 识 评价 发 现 挖掘 到 的 知识 在 知识 库 中 已 经 存在 . 则 S( 中 断 ) 协 调 器 发 挥 作 
用 ,中 断 下 一 步 的 知识 库 精 化 过 程 ,从 而 避免 耗 时 去 做 无 谓 的 知识 融合 。 
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2. 协调 器 

R 聚焦 协调 器 根据 领域 专家 或 用 户 提供 的 元 知识 、 专 家 系统 知识 库 的 一 致 性 和 有 效 性 
检验 结果 、 专 家 系统 推理 运行 失败 的 断 点 ,对 数据 源 进行 聚焦 ,从 而 得 到 挖掘 数据 表 。 例 如 ， 
元 知识 “发 现 平均 气温 和 日 照 时 数 与 肉 虫 密度 之 间 的 关系 ”, 则 R 协调 器 将 从 虫害 发 生 数据 
库 中 抽取 平均 气温 \ 日 照 时 数 、 上 肉 虫 密度 三 个 属性 的 数据 ,生成 挖掘 表 。 元 知识 类 似 于 一 个 
指定 架构 的 挖掘 任务 。 而 对 于 “平均 气温 和 雌 虫 密度 之 间 缺 乏 关 联 ” 的 知识 库 检 验 结果 ,R 
协调 器 将 生成 由 平均 气温 和 肉 虫 密度 构成 的 挖掘 数据 表 。 对 于 “知识 对 象 * 病害 诊断 "推理 
失败 ”的 推理 运行 失败 断 点 ,R 协调 器 将 抽取 所 有 在 知识 对 象 “病害 诊断 ”中 出 现 的 属性 数 
据 , 构 成 挖掘 表 。R 协调 器 使 得 数据 挖掘 过 程 更 具有 针对 性 。 

对 数据 挖掘 得 到 的 规则 性 知识 首先 进行 知识 评价 。 如 果 知 识 已 经 存在 于 知识 库 中 ( 随 
着 系统 运行 时 间 增 加 ,这 种 情况 最 终 会 发 生 ), 则 S 中 断 协调 器 发 生 作 用 ,中 断后 续 的 知识 融 
合 过 程 , 回 到 数据 挖掘 的 开始 ,此 时 可 能 需要 选择 新 的 数据 进行 挖掘。 

3. 人 机 交互 专家 系统 

专家 系统 是 人 工 智 能 应 用 研究 最 活跃 和 最 广泛 的 课题 之 一 。 自 从 1965 年 第 一 个 专家 
系统 DENDRAL 在 美国 斯 坦 福 大 学 诞生 以 来 , 仅 经 过 二 十 多 年 的 研究 发 展 , 到 20 世纪 80 
年 代 中 期 ,各 种 专家 系统 就 已 遍布 各 个 领域 ,取得 很 大 成 功 。 

最 初 的 专家 系统 定义 是 : 专家 系统 是 一 个 具有 大 量 的 专门 知识 与 经 验 的 程序 系统 , 它 
应 用 人 工 智能 技术 和 计算 机 技术 ,根据 某 个 领域 一 个 或 多 个 专家 提供 的 知识 和 经 验 ,进行 推 
理 和 判断 ,模拟 人 类 专家 的 决策 过 程 ,以 便 解决 那些 需要 人 类 专家 处 理 的 复杂 问题 。 简 言 
之 ,专家 系统 是 一 种 模拟 人 类 专家 解决 领域 问题 的 计算 机 程序 系统 。 

对 于 20 世纪 的 专家 系统 研究 ,可 以 归纳 出 以 下 几 点 。 

(1) 专家 系统 最 主要 的 部 分 是 知识 库 和 推理 机 。 知 识 库 用 于 存放 领域 专家 的 知识 , 包 
括 事 实 、 可 行 操作 和 规则 等 推理 机 用 于 记忆 采用 的 规则 和 控制 策略 的 程序 ,使 专家 系统 能 够 
以 逻辑 方式 协调 工作 。 推 理 机 根据 知识 进行 推理 和 导出 结论 ,而 非 简单 的 搜索 。 

(2) 知识 库 是 专家 系统 发 展 出 的 很 重要 的 思想 , 它 不 仅 促进 了 人 工 智能 的 发 展 ,而 且 对 
整个 计算 机 科学 的 发 展 影响 甚大 。 

(3) 建立 知识 库 涉及 知识 获取 和 知识 表示 。 最 初 的 知识 获取 指 知识 工程 师 从 领域 专家 
那里 获得 知识 ,知识 表示 则 用 计算 机 能 够 理解 的 形式 表示 和 存储 这 些 知识 。 

(4) 推理 机 模拟 人 类 专家 解决 问题 的 思路 。 这 种 方式 对 于 结构 化 问题 求解 效果 良好 ， 
而 对 于 非 结构 化 的 问题 则 往往 无 能 为 力 。 这 种 ”模拟 ”的 思路 使 得 专家 系统 得 以 在 初期 蓬勃 
发 展 , 但 也 阻碍 了 专家 系统 的 进一步 发 展 。 

近来 一 些 研究 者 认为 ,人 工 智 能 是 对 各 种 定性 模型 (物理 的 ,感知 的 .认识 的 和 社会 的 系 
统 模型 ) 的 获得 .表达 及 使 用 的 计算 方法 进行 研究 的 学 问 , 从 这 个 意义 上 说 ,一 个 专家 系统 中 
的 知识 库 应 该 是 由 各 种 模型 综合 而 成 的 ,而 这 些 模 型 又 往往 是 定性 的 模型 。 由 于 模型 的 建 
立 与 知识 密切 相关 ,所 以 有 关 模型 的 获得 .表示 及 使 用 自然 地 包括 知识 获取 、 知 识 表示 和 知 
识 使 用 。 以 这 样 的 观点 来 看 待 专家 系统 的 设计 ,可 以 认为 一 个 专家 系统 是 由 一 些 原 理 与 运 
行 方式 不 同 的 模型 综合 而 成 。 最 近 一 些 研究 认为 ,发 展 专家 系统 不 仅 要 采用 各 种 定性 模型 ， 
而 且 要 运用 人 工 智能 和 计算 机 技术 的 一 些 新 思想 与 新 技术 ,如 分 布 式 ,协同 式 和 学 习 机 
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大 数 往 “ 拓 区 现 点 数 桥 二 和 
制 等 。 

正如 专家 系统 的 先驱 费 根 鲍 姆 (Feigenbaum) 所 说 : 专家 系统 的 力量 是 从 它 处 理 的 知识 
中 产生 的 ,而 不 是 从 某 种 形式 主义 及 其 使 用 的 参考 模式 中 产生 的 。 专 家 系统 的 水 平 完全 依 
赖 于 它 所 拥有 的 知识 ,而 知识 获取 历来 是 开发 专家 系统 的 一 个 瓶颈 。 在 早期 ,知识 获取 被 视 
为 一 个 从 人 类 知识 到 特定 知识 库 的 转换 过 程 。 这 种 转换 基于 知识 已 经 清晰 存在 ,只 需要 搜 
集 并 加 以 表示 的 假设 。 这 些 知 识 一般 是 通过 对 特定 领域 专家 进行 咨询 得 到 ,并 被 表示 为 产 
生 式 规则 。 这 种 基于 知识 转换 的 知识 获取 具有 以 下 缺点 : 知识 转换 困难 ,知识 工程 师 和 领 
域 专家 之 间 存 在 隔 闵 ,从 而 使 得 领域 专家 的 知识 很 难 被 规范 地 表示 出 来 ; 转换 前 提 有 时 难 
以 成 立 ,知识 也 许 存 在 ,但 并 非 总 是 为 领域 专家 所 知 , 而 且 领 域 专家 有 时 依靠 经验” 行事 ; 
表示 形式 有 限 ,知识 转换 一 般 将 知识 表示 为 产生 式 规则 ,对 于 那些 存在 于 数据 中 的 隐 性 知识 
难以 转换 和 表示 。 

近来 一 些 研究 认为 ,知识 库 系 统 的 开发 过 程 更 应 被 视 为 一 个 建 模 过 程 ,建立 知识 库 系统 
意味 着 建立 一 个 具有 专家 能 力 的 求解 问题 的 计算 机 模型 。 其 本 质 不 在 于 模拟 专家 解决 问题 
的 过 程 , 而 在 于 建立 能 达到 相似 效果 的 知识 模型 。 知 识 获 取 不 再 被 视 为 对 知识 进行 转换 ,而 
是 成 为 建 模 过 程 的 一 部 分 。 传 统 知识 转换 得 到 的 规则 仅仅 是 知识 模型 的 一 种 。 

自 熊 范 纶 等 提出 农业 专家 系统 以 来 ,经 过 近 二 十 年 的 发 展 ,已 经 得 到 广泛 应 用 ,但 仍然 
依赖 于 农业 专家 提供 知识 ,而 耗费 巨 资 普 查 得 到 的 作物 苗 情 ,、 土 情 、 肥 情 、 病 虫害 .气象 等 大 
量 数据 资料 ,基本 作为 文件 存档 等 。 将 发 现 的 知识 与 专家 系统 知识 库 有 效 融 合 ,促进 专家 系 
统 的 自动 知识 获取 和 知识 精 化 ,具有 重要 的 理论 和 实际 意义 。 

经 过 数 十 年 的 发 展 ,数据 挖掘 技术 已 经 逐渐 走向 实用 化 阶段 。 如 何 减 轻 那 些 缺乏 专业 
知识 的 最 终 用 户 由 于 使 用 数据 挖掘 带 来 的 技术 上 的 压力 ,减轻 操作 负担 ,使 得 他 们 可 以 将 注 
意 力 集中 在 使 用 数据 挖掘 的 真正 目的 上 一 一 获取 和 使 用 知识 ,是 一 个 迫切 需要 解决 的 问题 。 
另 一 方面 ,专家 系统 发 展 到 今天 ,已 获得 了 广泛 的 应 用 。 知 识 决 定 着 专家 系统 的 能 力 ,而 知 
识 获 取 却 仍然 是 建造 专家 系统 的 瓶颈 。 知 识 发 现 给 专家 系统 的 自动 知识 获取 带 来 希望 。 二 
者 之 间 有 效 的 集成 最 终 决 定 知 识 发 现 的 实用 性 。 知 识 发 现 自身 也 强调 ,所 发 现 的 知识 的 价 
值 存 在 于 它 的 适当 使 用 中 。 将 知识 发 现 应 用 到 专家 系统 中 ,将 大 大 改善 专家 系统 的 知识 获 
取 能 力 , 从 而 提高 专家 系统 的 决策 能 力 ,在 促进 专家 系统 深入 发 展 的 同时 ,也 将 促进 知识 发 
现 的 更 广阔 应 用 。 

4. KDK 

KDK 进行 衍生 知识 库 ( 存 放 发 现 的 知识 ) 与 专家 系统 知识 库 的 合成 和 提炼 ,并 可 启动 工 
协调 器 ,与 领域 专家 进行 交互 ,生成 扩展 知识 库 , 利 用 动态 变化 后 的 真实 数据 库 或 新 数据 库 ， 
在 下 一 个 抽象 级 上 进行 KD(D&K) 的 知识 精 化 。 由 此 循环 ,实现 知识 库 中 知识 的 不 断 精 化 
与 提升 。 

挖掘 出 的 知识 经 过 知识 评价 后 将 被 存储 在 中 间 知 识 库 中 。 中 间 知 识 库 与 专家 系统 原 有 
知识 库 进 行 知 识 融合 ,包括 元 余 、 冲 突 、 巴 盾 检 测 。T 协调 器 在 这 里 实际 代表 着 应 用 领域 专 
家 ,尽管 他 们 不 一 定 知道 数据 挖掘 和 知识 融合 的 具体 过 程 ,但 对 于 那些 相互 冲突 .相互 矛盾 
的 知识 ,他 们 也 许 想 自己 决定 如 何 处 理 。 基 于 超 图 的 知识 表示 技术 被 用 来 表示 知识 ,从 而 发 
现 知识 的 宛 余 . 冲 突 和 了 矛盾 。 

对 于 智能 系统 来 说 ,知识 库 不 应 该 是 一 成 不 变 的 。 首 先 可 能 存在 适用 性 的 问题 。 某 个 
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知识 库 可 能 只 是 反映 了 某 个 地 区 的 情况 。 这 在 农业 领域 是 非常 普遍 的 。 以 植保 为 例 ,不 同 
的 地 区 有 着 不 同 的 病虫害 ,同样 的 病虫害 有 着 不 同 的 灾害 发 生 规 则 。 其 次 当 数据 不 断 积 累 
时 ,知识 库 可 能 变 得 不 再 有 效 。 原 有 的 知识 需要 修改 ,以 适应 数据 增长 。 在 知识 库 精 化 过 程 
中 ,由 数据 挖掘 得 到 的 知识 与 原 有 智能 系统 知识 库 融 合 ,从 而 使 得 知识 库 能 够 得 到 完善 和 精 
化 。 我 们 采用 专家 系统 开发 出 施肥 知识 发 现 系统 和 植保 知识 发 现 系统 。 施 肥 知 识 发 现 系统 
可 以 应 用 于 科学 施肥 。 用 户 只 需 提供 自己 的 数据 库 和 知识 库 , 就 可 进行 诸如 土壤 肥力 评估 、 
施肥 量 确定 、 目 标 产 量 确定 等 方面 的 知识 发 现 和 知识 库 精 化 。 植 保 知识 发 现 系 统 与 施肥 知 
识 发 现 系统 具有 相同 的 系统 结构 ,不 同 的 是 该 系统 结合 植保 领域 知识 ,应 用 于 病虫害 诊断 等 
植保 领域 。 这 两 个 系统 易学 易 用 ,操作 傻瓜 化 ,实际 运用 证 明 可 以 有 效 发 现 和 精 化 知识 。 尤 
其 是 植保 知识 发 现 系统 ,发 现 了 虫害 不 同 代数 发 生 之 间 的 序 贯 关系 ,这 是 过 去 植保 专家 系统 
知识 库 中 所 没有 的 知识 。 

知识 发 现 系统 面向 应 用 领域 的 一 般 用 户 。 用 户 操 作 知 识 发 现 系 统 的 过 程 就 像 是 在 解决 
他 所 熟悉 的 领域 问题 ; 同时 系统 自动 运行 的 特性 使 得 用 户 可 以 集中 精力 分 析 处 理 数据 挖掘 
得 到 的 知识 ,大 大 减轻 了 用 户 操 作 负 担 , 提 高 了 数据 挖掘 技术 的 实用 性 。 发 现 的 知识 最 终 通 
过 KDK 过 程 融 合 到 专家 系统 知识 库 中 ,实现 知识 精 化 。 


7.6.4 ”企业 大 数据 知识 管理 框架 


企业 从 数据 中 提取 知识 后 ,还 需要 重视 知识 积累 和 知识 提炼 ,只 有 建立 完整 的 知识 管理 
体系 和 流程 ,才能 够 实现 对 大 数据 的 充分 利用 。 知 识 管理 是 网 络 新 经 济 时 代 的 新 兴 管 理 思 
潮 与 管理 方法 ,著名 管理 大 师 彼得 ， 德 鲁 克 在 1965 年 即 预言 :“ 知 识 将 取代 土地 、 劳 动 、 资 
本 与 机 器 设备 ,成 为 最 重要 的 生产 因素 。” 

知识 管理 系统 , 即 根 据 知 识 管理 理论 、 客 户 实际 状况 ,完成 对 组 织 中 大 量 有 价值 的 方案 、 
策划 成 果 、 经 验 等 知识 进行 分 类 存储 和 管理 ,积累 知识 资产 ,避免 知识 资产 流失 ,促进 知识 
的 学 习 、 共 享 .培训 、 再 利用 和 创新 ,有 效 降低 组 织 运营 成 本 ,强化 其 核心 竞争 力 的 软件 系统 。 
知识 管理 系统 作为 知识 管理 过 程 中 最 主要 的 生产 、 应 用 、 分 析 系统 ,从 工具 性 的 角度 提供 了 
知识 的 人 创新、 审核, 发布. 使用. 交互、 共享、 推送. 评价 考核. 分析、 分 拣 等 具体 的 功能 。 
图 7-30 是 现代 企业 新 一 代 知 识 管理 系统 架构 图 , 它 汇总 了 内 、 外 部 不 同 来 源 的 知识 ,并 提供 
了 知识 挖掘 ,知识 地 图 ,专家 网 络 等 多 种 信息 处 理 、. 知 识 抽取 ,知识 管理 等 功能 支持 的 知识 管 

大 数据 改变 了 企业 数据 利用 和 知识 管理 的 现状 ,并 进一步 改变 了 传统 企业 主要 依靠 经 
验 的 企业 决策 方式 ,使 得 企业 经 营 者 可 以 借助 海量 数据 和 先进 的 数据 分 析 手段 ,得 到 更 加 有 
据 可 依 的 经 营建 议 , 而 这 也 将 对 企业 的 决策 模式 带 来 影响 。 对 于 企业 高 层 管理 者 来 说 ,以 往 
的 决策 过 程 主要 依赖 个 人 经 验 和 直觉 的 判断 ,或 者 简单 数据 分 析 , 而 立足 于 充分 数据 分 析 的 
决策 模式 将 帮助 企业 管理 者 以 更 加 科学 的 方式 完成 决策 过 程 ,提高 决策 的 准确 度 。 在 以 往 
的 决策 过 程 中 ,企业 的 一 般 员工 因为 对 企业 全 和 貌 缺 乏 把 握 ,难以 提出 对 企业 决策 的 全 局 性 建 
议 , 也 就 无 法 参与 企业 的 核心 决策 过 程 。 但 是 在 大 数据 时 代 , 企 业 数 据 中 心 的 建立 和 企业 知 
识 管理 流程 的 科学 化 、 规 范 化 和 公开 化 使 得 普通 员工 也 能 够 获得 充足 的 企业 决策 信息 ,使 得 
更 多 的 普通 员工 能 够 了 解 企业 的 整体 动向 并 对 企业 变革 或 改进 提出 合理 化 建议 。 而 这 些 变 
化 无 疑 也 将 改变 原 有 的 企业 运营 模式 ,使 得 企业 的 组 织 架 构 、 决 策 模式 进一步 向 扁平 化 发 
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图 7-30 现代 企业 新 一 代 知 识 架 构图 


展 , 企 业 管理 者 将 和 普通 员工 一 起 完成 决策 过 程 。 大 数据 影响 下 的 决策 环境 更 加 复杂 ,决策 
时 效 性 更 高 ,而 传统 的 集权 式 决策 模式 也 将 向 着 分 散 式 的 决策 方式 进行 转变 ,企业 决策 以 经 
营 数 据 为 依据 ,企业 的 决策 过 程 更 加 趋向 于 扁平 化 的 调整 。 

企业 数据 中 心 建立 后 ,各 部 门 之 间 的 数据 和 信息 互 连 互通 , 变 得 更 加 透明 化 ,来 自 设计 、 
生产 、 销 售 、 供 应 链 、 服 务 等 不 同 部 门 的 数据 能 够 被 有 效 整合 ,形成 完整 清晰、 精细 的 产品 和 
用 户 信息 流 。 因 此 ,企业 各 部 门 之 间 的 合作 也 将 变 得 更 加 简单 便捷 ,有 助 于 企业 部 门 之 间 边 
界 的 模糊 化 , 极 大 地 提升 企业 价值 创造 和 业务 流程 效率 。 

当然 ,实现 企业 大 数据 背景 下 基于 知识 管理 的 企业 决策 系统 ,要 通过 企业 信息 化 系统 的 
顶层 设计 和 分 布 实施 ,进行 统一 思想 和 树立 大 数据 思维 模式 全 员 参 与 的 意识 ,并 且 进 行业 务 
系统 知识 培训 和 数据 收集 、 整 理 , 分 析 、 决 策 过 程 规 划 指 导 , 力 求 通过 建立 企业 大 数据 中 心 和 
知识 管理 系统 ,使 企业 能 够 更 加 关注 数据 、 分 析 数 据 、 利 用 知识 系统 科学 决策 、 创 造 全 员 参 与 
的 整体 工作 氛围 ,促进 企业 有 效 ,快速 、 健 康 可 持续 发 展 。 


7.7 大 数据 分 析 处 理 平台 
7.7.1 结构 化 大 数据 处 理 架 构 


结构 化 大 数据 处 理 , 涉 及 企业 处 理 的 多 个 环节 ,从 捕获 存储、 计算 到 分 析 挖 掘 ,可 以 作 
为 性 能 提升 和 解决 方案 单独 部 署 。 主 要 功能 包括 数据 集成 、 实 时 数据 同步 ,数据 仓库 、 分 析 
引擎 和 数据 挖掘 等 。 
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数据 集成 (DD 主要 涵盖 传统 ETL 能 力 ,提供 了 丰富 的 数据 处 理 、 转 换 功 能 组 件 ,同时 
可 集成 CDC 工具 、 主 数据 管理 产品 (MDM) ,为 企业 提供 一 个 全 面 的 数据 集成 处 理解 决 方 
案 。CDC 工具 除了 可 集成 到 数据 集成 产品 中 提供 实时 能 力 之 外 ,也 可 以 单独 部 署 ,满足 企 
业 实时 数据 同步 、 灾 备 等 需要 。 

数据 集成 主要 使 用 场景 为 从 业务 数据 源 到 数据 仓库 系统 的 ETL 过 程 。 数 据 集成 成 品 
通过 支持 Web Service 可 与 企业 服务 总 线 产 品 ESB 进行 数据 交互 ,通过 与 主 数据 管理 产品 
集成 可 降低 数据 仓库 应 用 的 复杂 度 , 同 时 也 可 以 为 主 数据 管理 提供 支持 。 一 般 来 说 ,数据 集 
成 可 适用 于 任何 从 源 数 据 到 目标 数据 的 处 理 转换 。 其 集成 技术 架构 如 图 7-31 所 示 。 














图 7-31 大 数据 集成 技术 结构 图 


2. CDC 工具 

CDC(Change Data Capture) 工具 是 基于 日 志 分 析 和 消息 中 间 件 技术 ,内 部 具有 高 组 
存 \ 高 并 发 的 架构 ,实现 了 高 性 能 的 增 量 式 数据 复制 和 灵活 的 部 署 模型 。CDC 工具 能 够 提 
供 面向 数据 仓库 的 高 效 数据 加 载 以 及 异 构 系 统 间 数据 的 实时 同步 。 其 工作 原理 简单 描述 如 
图 7-32 所 示 。 

其 技术 特点 如 下 。 

(1) 基于 数据 库 日 志 的 增 量 获取 技术 .减少 对 生产 库 性 能 的 影响 ; 

(2) 采用 消息 中 间 件 技术 ,支持 灵活 部 署 ,并 具备 异常 处 理 机 制 ,稳定 可 靠 ; 

(3) 提供 完善 的 管理 和 监控 工具 ; 

(4) 可 支持 1000 个 在 线 用 户 产生 的 业务 数据 ,集成 延迟 小 于 3s。 

3. 分 析 引 擎 

OLAP 引擎 的 核心 作用 是 接收 前 端 工具 或 应 用 的 多 维 分 析 操 作 发 送 的 请 求 ,基于 数据 
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图 7-32 CDC 工作 原理 图 


仓库 进行 数据 查询 、 聚 合 , 最 后 返回 给 前 端 工具 或 应 用 处 理 结果 。OLAP 引擎 是 基于 
HOLAP(Hybrid OLAP) 技 术 架 构 的 多 维 分 析 引 擎 ,分析 数据 存放 在 关系 数据 库 中 ,聚合 结 
果 存 于 高 速 缓冲 中 ,其 技术 架构 如 图 7-33 所 示 。 

















JDBC 驱 动 








图 7-33 OLAP 分 析 引 擎 


4. 数据 挖掘 
E-Miner 架构 如 图 7-34 所 示 , 其 提供 了 种 类 丰富 的 数据 处 理 、 挖 掘 预测 、 可 视 化 等 组 
件 。 通 过 探索 和 挖掘 企业 运营 数据 中 潜在 的 各 种 关系 、 规 律 和 趋势 ,抽象 提炼 数据 模型 ,并 
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通过 模型 的 可 视 化 、 模 型 的 发 布 、 模 型 的 预警 等 功能 为 用 户 快速 进行 运营 策略 的 制定 和 调整 
提供 支撑 。E-Miner 遵循 数据 挖掘 标准 CRISP-DM ,是 为 用 户 提供 基于 模型 的 全 生命 周期 
管理 的 挖掘 项 目 实施 方法 论 。 


Data Studio 


建 模 设计 器 


[ra 





分 布 式 执行 引擎 


_ 介 
图 7-34 FE-Miner 架构 图 

(1) 数据 处 理 组 件 。E-Miner 支持 数据 预 处 理 、 统 计 分 析 、 挖 气 和 预测 算法 ,同时 采用 
优化 的 算法 迭代 机 制 和 基于 分 布 式 并 行 技术 的 高 速 数 据 处 理 引 擎 , 极 大 地 提高 了 算法 执行 
效率 。 具 体 算法 分 类 如 表 7-18 所 示 。 

表 7-18 ”EE-Miner 支持 算法 归 类 

分 类 分 析 | 决策 树 ,线性 回归 .多 辑 回 归 、 贝 叶 斯 .神经 网 络 分 类 支持 向 量 机 分 类 等 
聚 类 分 析 | k-means ,基于 k-means 的 层次 聚 类 、 分 类 估计 聚 类 ,两 阶段 聚 类 等 
关联 分 析 | 购物 篮 分 析 、 属 性 关联 分 析 、 序 列 模式 分 析 
时 间 序 列 | 滑动 平均 值 .指数 平滑 、 自 回归 差分 滑动 平均 -ARIMA ,趋势 估计 


预 处 理 | 抽样 ,划分 \ 正 规 化 
统计 分 析 | 描述 性 统计 (归纳 、 列 表 ) .数据 探查 ( 拟 合 、 离 散 化 、 估 计 、 因 子 分 析 ) 、 异 常 检测 ,层次 聚 类 等 




















(2) 集成 R。R 是 一 门 用 于 统计 分 析 和 数据 可 视 化 的 开源 编程 语言 和 软件 框架 , 比 商 
用 的 挖掘 工具 (SPSS 十 SAS) 支 持 更 多 的 算法 包 , 其 主要 涵盖 了 概率 分 析 、 机 器 学 习 、 时 间 序 
列 分 析 等 。 

E-Miner 与 R 深度 集成 ,提供 R 语言 的 开发 调试 环境 ,同时 可 以 将 自 定义 的 R 包 发 布 
成 挖掘 算法 组 件 , 加 入 到 算法 库 中 。 

(3) 数据 可 视 化 。E-Miner 提供 了 折线 图 、 柱 状 图 、 散 点 图 、K 线 图 、 饼 图 、 雷 达 图 、 地 
图 .和 弦 图 . 力 导 向 布局 图 .仪表 盘 以 及 漏斗 图 来 展现 数据 ,同时 支持 任意 维度 的 堆积 和 多 图 
表 混 合 展 现 , 利 用 用 户 对 数据 和 模型 的 观察 和 理解 。 同 时 挖掘 平台 提供 了 可 定制 的 可 视 化 
接口 ,可 以 根据 数据 分 析 的 要 求 灵 活 地 控制 可 视 化 的 效果 。 


7.7.2 非 结 构 化 大 数据 处 理 架 构 
EDH(Enterprise Distribution for Hadoop) 企 业 级 非 结构 性 大 数据 处 理 主要 处 理 大 量 
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的 非 结构 化 或 半 结 构 化 类 型 数据 ,也 适用 于 超大 规模 的 结构 化 数据 处 理 分 析 , 如 图 7-35 


所 示 。 
管理 集成 、 接 口 集成 应 用 系统 、BI 系 统 数据 处 理 、 读 取 服 务 
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分 布 式 资源 管理 


图 7-35 非 结构 化 大 数据 处 理 框架 


Hadoop 是 开源 的 分 布 式 架构 ,能 够 让 用 户 在 不 了 解 分 布 式 底层 运行 细节 的 情况 下 ,对 
数据 进行 分 布 式 处 理 , 能 够 充分 利用 分 布 式 集群 的 高 效 计 算 和 存储 能 力 。EDH 在 开源 社区 
软件 的 基础 上 ,包含 Hadoop 大 部 分 的 主流 组 件 , 并 且 对 这 些 组 件 在 安全 性 、 管 理 , 性 能 、 高 
可 用 性 等 方面 进行 了 优化 。 同 时 整合 数据 集成 工具 ,增强 了 其 企业 级 应 用 特性 ,让 企业 可 以 
更 快 、 更 准 、 更 稳 地 从 各 类 繁杂 无 序 的 海量 数据 中 洞察 商机 。 

EDH 主要 用 于 解决 企业 的 以 下 需求 问题 。 

(1) 快速 整合 ,存储 ,集中 管理 不 同类 型 的 海量 数据 ; 

(2) 提供 批量 和 实时 数据 处 理 服务 ; 

(3) 为 构建 企业 级 数据 仓库 提供 大 数据 平台 支撑 ; 

(4) 结合 商务 智能 和 数据 挖掘 可 视 化 产品 ,提供 数据 分 析 服 务 ; 

(5) 提供 平台 中 服务 组 件 的 管理 和 系统 运行 监控 。 

1. 企业 大 数据 处 理 架 构 

EDH 中 主要 包含 Hadoop 数据 处 理 组 件 和 企业 管理 器 两 大 部 分 。 其 中 , Hadoop 组 件 
涵盖 了 批量 处 理 和 实时 查询 两 种 处 理 服 务 。 在 数据 处 理 组 件 部 分 通过 性 能 优化 大 幅 提升 其 
处 理 效率 和 处 理 能 力 ; 企业 管理 器 中 包含 运 维 管理 ,监控 服务 .安全 等 多 方面 内 容 。 具 体 如 
图 7-36 所 示 。 

EDH 的 技术 优势 主要 体现 在 : 与 Hadoop 标准 兼容 ,支持 分 布 式 并 行 计算 、 无 单 点 故 
障 ; 支持 结构 化 、 半 结构 化 和 非 结 构 化 数据 的 存储 ,管理 和 探查 ; 支持 大 规模 集群 节点 的 监 
控 和 状态 预警 ,提供 自动 故障 恢复 机 制 保证 系统 的 高 可 用 ; 兼容 X86 硬件 体系 架构 ,可 以 在 
廉价 服务 器 上 部 署 , 降 低 总 体 成 本 ; 支持 实时 的 结构 化 和 非 结 构 化 数据 访问 ; 友好 的 集群 
管理 界面 ,实现 对 各 个 组 件 的 方便 管理 ; 能 够 模块 化 地 交付 多 样 化 .个 性 化 的 业务 功能 ,可 
将 大 数据 系统 与 现 有 IT 系统 进行 无 颖 整合 ,可 以 与 传统 商业 智能 产品 和 数据 挖掘 产品 无 
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图 7-36 EDH 产品 架构 
颖 集成 。 
2. 大 数据 处 理解 决 方案 


基于 EDH 数据 处 理 组 件 与 数据 集成 和 CDC 工具 整合 ,可 以 为 企业 在 处 理 大 数据 中 批 
量 处 理 和 实时 处 理 两 种 场景 提供 对 应 解决 方案 ,如 图 7-37 和 图 7-38 所 示 。 批 量 处 理 部 分 
利用 MapReduce、 分 布 式 计算 引擎 技术 ,具有 高 并 发 ,大 容量 特性 可 以 大 幅度 提高 数据 处 理 
效率 。 实 时 数据 处 理 部 分 结合 了 Base 的 高 速 存 取 和 Impala 的 高 效 处 理 能 力 与 CDC 工具 


衔接 ,完成 数据 的 实时 采集 和 分 析 。 
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图 7-37 批量 处 理 架 构图 


3. 大 数据 集群 管理 器 

企业 在 利用 Hadoop 处 理 大 数据 问题 时 ,面临 如 下 问题 。 

(1) 部 署 : 前 期 咨询 和 需求 分 析 服 务 人 欠缺 ,对 Hadoop 架构 普遍 陌生 。 

(2) 应 用 : 缺乏 MapReduce 设计 能 力 ,缺少 能 够 提供 完成 解决 方案 的 专业 厂商 。 

(3) 运 维 : 缺乏 有 经 验 的 本 地 支持 厂商 ,系统 管理 和 调 优 的 门槛 较 高 。 

上 述 这 些 问题 制约 了 Hadoop 相关 技术 在 企业 中 的 应 用 和 推广 ,为 降低 Hadoop 技术 
的 门槛 ,快速 低 成 本 地 应 用 Hadoop,EDH 集群 系列 产品 在 安装 部 署 数 据 处 理 服 务 和 运 维 


as 大 数据 . 教 据 管理 与 数据 工程 
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图 7-38 实时 处 理 架构 


监控 上 提供 了 整套 的 技术 解决 方案 ,其 中 企业 管理 器 作为 实施 运营 工具 ,具有 重要 作用 。 

EDH 集群 管理 器 主要 功能 如 下 。 

(1) Hadoop 服务 组 件 和 集群 主机 的 监控 功能 。 实 现 对 HDFS、MapReduce、 Hive、Pig、 
HBase、Zookeeper 等 组 件 的 部 署 .管理 和 监控 以 及 系统 主机 CPU 内存 、 网 络 情况 的 监控 ， 
服务 组 件 信息 。 

主要 特征 包括 : 可 以 根据 预 置 的 指标 ,实时 监控 服务 组 件 的 健康 状态 ; 支持 可 视 化 的 
分 析 展 现 ,能够 更 好 地 查看 依赖 关系 和 性 能 指标 ; 通过 RESTful API 对 外 部 系统 提供 了 集 
成 接口 ; 提供 失败 恢复 机 制 ,能 够 使 得 各 个 组 件 恢复 到 一 致 状态 ; 提供 授权 机 制 ,支持 按 权 
限 管理 用 户 ; 支持 组 件 之 间 消 息 传输 加 密 ; 提供 详尽 的 错误 堆栈 信息 ,支持 日 志 分 析 。 

(2) 在 EDH 的 底层 数据 处 理 服 务 组 件 的 基础 上 ,提供 基于 Web 的 数据 分 析 处 理工 具 。 
能 够 实现 : 支持 数据 仓库 Hive 和 分 析 引 擎 Impala 的 查询 编辑 运行、 历史 保存 等 ; 支持 
EDH 存储 文件 的 浏览 编辑、 下 载 等 ; 支持 数据 处 理 脚本 的 设计 、 提 交 、 运 行 日 志 等 ; 支持 
数据 处 理 流 程 的 可 视 化 设置 ,调度 运行 等 ; 支持 查询 数据 的 简单 可 视 化 分 析 。 


7.7.3 主流 大 数据 分 析 平 台 

1. Palantir 旗下 大 数据 分 析 平 台 

Palantir ,提起 这 家 公司 就 会 让 人 觉得 如 雷 贯 耳 , 曾 用 大 数据 帮助 CIA 打败 本 。 拉登 的 
Palantir Technologies, 在 2014 年 美国 大 数据 公司 收入 排行 榜 中 排名 第 一 。Palantir 也 被 称 
为 大 数据 行业 的 印 钞 机 , 它 的 客户 包括 美国 国家 安全 局 (NSA)、 美 国联 邦 调查 局 (FBI) 、 美 
国 中 央 情 报 局 (CIA) 和 很 多 其 他 的 美国 反恐 和 军事 机 构 。 而 作为 Palantir 旗下 的 大 数据 分 
析 平 台 Palantir Gotham 自然 也 受到 了 广泛 的 关注 和 应 用 。 

Palantir Gotham 将 多 源 数据 作为 起 点 ,包括 很 多 结构 化 数据 ,如 日 志文 件 、 财 务 数据 表 
和 电子 表格 等 ,以 及 很 多 非 结 构 化 数据 ,如 电子 邮件 .文件 .图 片 和 视频 ,融合 数据 为 人 本 模 
型 ,通过 据 除 数据 类 型 和 数据 容量 的 限制 ,将 多 个 相关 的 源 数据 整合 并 绘制 为 简介 、 一 致 的 
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模型 。 这 个 模型 一 经 建立 后 ,数据 流 就 会 持续 不 断 地 流入 Palantir Gotham 平台 。 与 此 同 
时 ,相应 的 安全 守则 也 已 建立 ,只 有 被 授权 用 户 才 可 登入 。 这 些 数据 的 任何 更 新 都 会 同步 到 
平台 ,并 且 用 户 进行 分 析 时 ,他 们 所 有 的 行为 都 会 被 自动 记录 、 归 因 分 析 和 储存 。 用 户 可 以 
通过 建立 在 此 平台 上 的 各 种 综合 性 应 用 与 数据 进行 互动 。 他 们 可 以 即刻 搜索 所 有 数据 源 ， 
将 数据 关系 可 视 化 ,探索 不 同 的 假设 ,发 现 未 知 的 关系 ,揭示 隐藏 的 模式 ,与 同事 分 享 自 己 的 
见解 。 

Palantir Gotham 平台 后 端 集成 了 一 系列 功能 ,它们 主要 用 来 整合 不 同 的 数据 源 以 进行 
安全 ,协同 的 分 析 。 此 时 平台 扮演 着 企业 知识 库 的 角色 ,收容 着 企业 全 部 分 析 活 动 的 所 有 记 
录 。Palantir Gotham 平台 具有 的 优点 和 特性 主要 如 下 。 

(1) 建 模 灵 活性 。Palantir Gotham 平台 的 数据 模型 ,能 快速 定义 和 重 定义 数据 ,这 让 
它 被 称 为 “动态 本 体 ”, 同 时 也 让 整合 不 同 来 源 的 不 同 数据 为 一 个 整体 成 为 可 能 ,这 个 过 程 正 
符合 人 们 对 信息 的 自然 设想 。 

(2) 隐私 和 安全 控制 。 平 台 一 开始 就 设计 了 隐私 保护 功能 ,用 来 支持 精确 的 数据 处 理 ， 
多 层次 的 安全 保护 ,完全 性 的 审核 。 用 户 被 分 配给 不 同 层 级 的 准 入 许可 ,以 此 来 管制 他 们 与 
数据 互动 的 权利 。 

(3) 合作 。Palantir Gotham 平台 支持 多 样 性 的 合作 ,包括 能 够 突破 跨 境 机 构 、 功 能 .地 
域 间 限制 的 合作 ,连接 安全 模型 和 数据 模型 间 的 合作 ,连接 低频 ,高 延 时 下 的 不 同 网 络 、 甚 至 
卫星 的 合作 ; 同时 数据 的 安全 性 和 完整 性 都 有 可 靠 的 保障 。 

(4) 可 扩展 性 ,可 定制 性 ,应 用 程序 接口 。Palantir Gotham 平台 每 一 层 的 堆栈 都 被 设 
计 成 一 个 完全 开放 的 平台 。 经 由 动态 本 体 技术 (Dynamic Ontology) 整 合 的 数据 可 以 通过 
Java 入 口 作为 Palantir 对 象 接 和 人。 

(5) 知识 管理 用 户 可 以 探索 不 同方 向 的 推理 想法 ,一 路 记录 下 每 一 步 ,并 可 以 跳 回 他 们 
探索 过 程 中 的 早期 节点 。 同 时 ,数据 分 析 者 还 可 以 在 不 丢失 自己 工作 进度 的 情况 下 与 他 人 
分 享 自己 的 见解 。 这 些 便 利 条 件 会 促成 一 个 版 本 控制 知识 库 的 诞生 。 它 将 机 构 内 不 同 分 析 
者 对 数据 的 见解 累积 起 来 ,并 将 其 转换 为 数据 。 在 未 来 ,企业 可 以 利用 这 些 分 析 成 果 取 得 杠 
杆 式 飞跃 。 

(6) 算法 处 理 。Palantir Phoenix 工具 提供 了 编译 和 分 析 大 规模 数据 集 的 功能 ,同时 还 
提供 了 一 个 强大 而 灵活 的 框架 用 来 实现 该 功能 的 自动 化 。 非 技术 出 身 的 分 析 师 也 可 以 利用 
种 子 框架 在 不 用 写 一 行 代码 的 情况 下 创作 出 一 份 精彩 的 成 果 。 

(7) Palantir Gotham 平台 前 端 提供 了 一 整套 的 集成 工具 ,这 套 工 具 在 语义 分 析 、 时 间 
分 析 、 地 理 空间 分 析 、 全 文 分 析 方 面 均 做 了 优化 。 用 户 可 以 将 数据 对 象 在 不 同 应 用 之 间 拖 放 
以 获得 流畅 ,全 面 的 分 析 经 验 。 相 关 工 具 和 应 用 程序 主要 有 : 图 表 , 地 图 ,对 象 资源 管理 器 ， 
浏览 器 ,移动 端 等 。 

2. IBM Platform Symphony 大 数据 平台 


IBM Platform Symphony 作为 可 伸缩 性 极 强 的 企业 级 网 格 服务 器 SOA 中 间 件 ,可 用 于 
在 可 扩展 、 共 享 、 异 构 的 网 格 中 运行 分 布 式 应 用 服务 。 它 充分 利用 可 用 的 计算 资源 ,提高 并 
行 应 用 的 运行 速度 并 快速 得 到 计算 结果 ,良好 地 满足 数据 密集 型 与 计算 密集 型 应 用 ,全 面 提 
升 系统 性 能 。 在 全 球 ,IBM Platform Symphony 正在 为 世界 75% 的 金融 机 构 提供 服务 ,其 
中 ,世界 排名 前 5 的 银行 中 有 三 家 在 使 用 IBM Platform Symphony, 世界 排名 前 20 的 银行 
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大 数据 - 教 据 管理 数据 程 
中 有 12 家 在 使 用 IBM Platform Symphony。 在 中 国 , 中 信和 银行 正在 应 用 IBM Platform 
Symphony 满足 基于 大 数据 分 析 的 商业 与 风险 管理 应 用 。 

作为 一 个 企业 级 大 数据 和 分 析 平 台 ,Platform Symphony 的 一 个 核心 优势 是 , 它 能 屏 项 
底层 基础 设施 的 复杂 性 ,在 共享 底层 基础 设施 环境 的 基础 上 ,为 上 层 各 个 不 同 的 大 数据 应 用 
提供 一 个 多 租户 的 环境 。 同 时 , 它 还 能 支持 Hadoop 应 用 ,允许 一 些 基于 Hadoop 开发 的 大 
数据 应 用 和 一 些 并 行 计算 分 析 应 用 ,在 一 个 集群 或 者 同一 个 分 布 式 基础 设施 环境 上 运行 。 

以 金融 领域 常见 的 交叉 货币 互 换 期 权 价值 分 析 应 用 为 例 。 为 了 完成 这 项 工作 ,用 户 需 
要 模拟 未 来 一 段 时 间 内 本 币 利 率 、 外 币 利率 和 外 汇 汇率 的 发 展 趋势 ,并 通过 用 各 种 不 同 的 利 
率 组 合 来 计算 合约 在 不 同情 况 下 的 价值 。 实 践 中 广泛 采用 蒙特 卡 罗 路 径 模拟 的 方式 ,采用 
这 种 分 析 方 法 需要 模拟 大 量 的 蒙特 卡 罗 路 径 ( 模 拟 的 路 径 越 多 ,其 精确 度 越 高 ) ,计算 量 非常 
大 ,而 且 耗 时 。 如 何 管 理 集群 资源 ,让 其 并 发 地 完成 多 个 蒙特 卡 罗 路 径 的 模拟 ,是 一 个 严峻 
挑战 。 通 过 IBM Platform Symphony 构建 一 个 分 布 式 网 格 计算 平台 ,可 以 帮助 客户 快速 部 
署 、 管 理 ,监控 资源 .并 保证 计算 的 并 行 化 , 且 没 有 单 点 故障 以 提高 可 靠 性 ,最 终 快速 获得 所 

Platform Symphony 为 大 数据 分 析 不 仅 提供 了 强大 的 管理 .调度 和 监控 功能 ,同时 还 提 
供 了 很 强 的 对 开源 软件 的 支持 和 兼容 能 力 ,不 仅 让 基于 Hadoop、Spark 开发 的 应 用 可 以 在 
Platform Symphony 中 运行 ,同时 能 让 用 户 可 以 用 熟悉 的 开源 工具 ,如 IPython Zeppelin 
等 ,来 对 运行 结果 进行 分 析 和 展现 , 极 大 地 方便 了 数据 的 处 理工 作 , 最 大 化 地 提供 了 处 理 效 
率 。 另 外 值得 一 提 的 是 ,与 这 些 Spark、Hadoop 等 开源 软件 相 比 ,由 于 Platform Symphony 
是 采用 商业 化 的 软件 模式 开发 的 ,因而 在 性 能 、 时 延 等 诸多 方面 都 比 开 源 产品 有 明显 优势 。 
这 也 反映 在 一 些 实际 应 用 性 能 测试 上 , 相 较 开源 软件 ,采用 Platform Symphony 可 以 有 一 些 
大 幅度 的 提高 (有 些 可 能 达到 数 十 倍 ) ,尤其 是 一 些 对 时 间 延 迟 比 较 敏 感 的 应 用 。 

3. 清 数 NEO 大 数据 平台 

清 数 NEO 大 数据 平台 是 一 款 面向 企业 的 大 数据 商业 智能 产品 ,提供 大 数据 全 链条 技 
术 及 业务 支撑 ,包括 数据 清洗 处 理 、 数 据 仓 库 搭建 .数据 分 析 挖 掘 到 最 终 的 数据 可 视 化 展示 ， 
产品 处 于 国内 领先 水 平 。 

通过 NEO 平台 ,能 够 帮助 企业 快速 实现 大 数据 运行 服务 搭建 ,提供 分 布 式 数据 库 、 分 
布 式 数 据 挖掘 平台 、 流 计算 引擎 及 相关 的 自动 化 运 维 工 具 。 内 赃 的 商业 智能 分 析 模 块 
IDView, 则 通过 全 新 的 方式 ,解决 企业 数据 分 析 难 ,技术 人 员 任 务 压 力 大 的 问题 。 无 论 是 销 
售 数据 .ERP 数据 、 税 务 数据 还 是 社交 媒体 数据 .网 站 访问 数据 等 ,都 可 在 IDView 中 通过 单 
击 、 拖 忠 的 方式 实现 数据 分 析 , 无 须 技术 人 员 介 入 ,满足 企业 快速 分 析 、 灵 活 报表 的 需求 。 而 
针对 企业 的 特定 需求 ,企业 也 能 通过 自 定义 模板 、 定 制 化 开发 等 方式 .快速 实现 业务 需求 .从 
而 推动 企业 实现 数据 智能 化 管理 ,增强 核心 竞争 力 ,激活 数据 , 智 创 未 来 。 

目前 ,该 产品 广泛 应 用 于 企业 私有 数据 中 心 建设 中 ,帮助 企业 打破 数据 孤岛 ,实现 多 种 
数据 分 析 业 务 ,包括 精准 营销 、 销 售 分 析 、 客 户 分 析 、 市 场 监测 和 预测 分 析 、 财 务 分 析 、 生 产 及 
供应 链 分 析 、 风 险 分 析 、 质 量 分 析 、 业 务 流程 等 。 

在 清 数 NEO 大 数据 产品 背后 ,其 运营 团队 还 为 多 个 行业 服务 提供 分 析 挖掘 模板 ,包括 
医疗 ,教育 、 税 务 政务、 金融 等 。 企 业 只 需 下 载 模板 , 即 可 快速 实现 相关 行业 的 分 析 。 

(1) 清 数 NEO 大 数据 平台 IDManager 详解 。 
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@O 软 硬 一 体 化 解决 方案 .大 数据 开 箱 即 用 。 清 数 NEO 平台 提供 一 体 机 解决 方案 ,通过 

平台 预 装 及 硬件 优化 ,用 户 只 需 购买 一 体 机 , 即 可 实现 大 数据 开 箱 即 用 ,最 大 化 减少 用 户 信 

息 化 建设 时 间 成 本 ,专注 于 实际 业务 的 快速 开展 。 
@ 纯 大 数据 架构 ,支持 无 限 扩 展 , 如 图 7-39 所 示 。 与 传统 智能 分 析 平 台 不 同 , 清 数 

NEO 平台 充分 考虑 大 数据 问题 ,采用 分 布 式 计算 、 内 存 分 析 、 流 式 计算 等 多 种 方式 ,实现 高 

可 扩展 架构 , 当 承 载 的 数据 增 大 后 ,平台 可 以 通过 增加 新 的 节点 来 获得 整体 性 能 的 提高 ,从 

而 解决 传统 架构 中 数据 爆发 后 ,难以 承载 的 问题 。 
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图 7-39 NEO 进程 状态 监控 


@ 一 目 了 然 的 数据 监控 展示 。 通 过 NEO 平台 能 够 一 目 了 然 地 看 到 系统 的 整体 状况 、 节 
点 状态 ,以 及 内 存 .CPU ,硬盘 使 用 率 等 ,包括 整个 集群 的 运行 情况 ,如 图 7-40 及 图 7-41 所 示 。 
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图 7-40 系统 运行 监控 


(2) NEO 大 数据 平台 IDView 智能 BI 组 件 详解 。 

@ 原生 多 行业 应 用 支撑 。 针 对 数据 分 析 入 门 企 业 , NEO 平台 提供 多 种 标准 化 数据 分 
析 模 板 , 通 过 下 载 模板 ,用 户 能 够 快速 完成 行业 化 标准 数据 分 析 , 如 电 商 的 留存 分 析 、 渠 道 分 
析 、 市 场 数据 分 析 等 ,帮助 用 户 梳理 数据 业务 ,快速 实现 数据 驱动 。 

@ 简便 的 数据 分 析 、 分 享 方式 。 清 数 NEO 平台 旨 在 为 非 程序 员 用 户 提供 快捷 的 数据 
分 析 能 力 , 因 此 整体 使 用 均 采 用 简单 一目 了 然 的 方式 。 用 户 只 需要 通过 单 击 、 拖 中 相关 数 
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图 7-41 服务 进程 控制 面板 


据 字 段 即 可 实现 多 维 数据 分 析 、 时 序 分 析 等 ,产生 的 数据 分 析 结 果 可 以 通过 多 种 方式 进行 展 
示 , 同 时 分 享 给 相关 人 员 进 行 查看 。 

@ 丰富 的 可 视 化 展示 支持 。 平 台 提供 20 种 以 上 的 图 表 数 据 展示 方式 ,如 图 7-42 所 示 ， 
包括 柱 形 图 、 条 形 图 、 面 积 图 \ 漏 斗 图 、 字 符 云 .标签 卡 等 ,同时 支持 自 定义 多 色彩 标记 ,使 得 
数据 结果 展示 更 加 直观 ,帮助 企业 管理 者 把 握 全 局 ,洞察 企业 问题 并 发 现 商 机 ,如 图 7-43 和 
图 7-44 所 示 ,展示 行业 应 用 大 数据 图 例 。 


NEO 醒 限 大 数 划 数据 库 图 表 列 家 搜 制 面 家 二 = 
我 的 数 所 推拉 模式 -化 模 式 2m 而 表 标 是 
mu * 四 。 
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图 7-42 大 数据 柱状 图 展示 


@ 快速 预警 条 件 创建 及 实时 预警 分 析 。 以 往 ,在 企业 数据 预警 分 析 中 ,如 库存 预警 收 
人 支出 预警 等 场景 ,往往 需要 技术 部 门 参与 定制 开发 才能 实现 ,同时 , 随 着 告警 内 容 增多 , 数 
据 复杂 度 增 加 ,预警 往往 会 出 现 极 大 的 延 时 ,无 法 满足 业务 需求 。 在 清 数 NEO 平台 中 , 预 
警 功能 的 设置 则 可 以 通过 业务 人 员 完 成 ,基于 页 面 的 快速 预警 条 件 创建 方式 ,能 够 让 非 技术 
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图 7-44 国税 大 数据 展示 图 例 








人 员 在 10 分 钟 以 内 完成 任意 条 件 、 任 意 数据 的 预警 设置 。 另 外 得 益 于 底层 大 数据 平台 的 支 
撑 , 预警 分 析 通 过 实时 流 的 方式 进行 ,确保 了 预警 条 件 触发 后 ,最 短 时 间 对 外 预警 。 
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自 定义 行业 面板 。 摆 脱 以 往 固 定 报表 模式 ,IDView 能 够 让 用 户 自 定义 排版 数据 展 


,汇聚 所 有 关心 的 数据 ,在 统一 的 页 面 中 得 到 展示 。 通 过 分 享 ,相关 人 员 即 可 看 到 报 
表 结论 。 


多 数据 源 支持 。 区 别 于 传统 数据 仓库 架构 ,NEO 平台 充分 考虑 了 移动 数据 及 公开 


数据 的 重要 性 ,在 传统 的 数据 库 支持 之 上 ,平台 还 对 多 种 数据 平台 提供 支持 ,实现 企业 内 外 


部 数据 





的 整合 ,提供 企业 全 方位 的 数据 分 析 。 
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“ 医疗 健康 
se 大 数据 解决 方案 


使 -ee-e 


卫生 信息 化 是 指 以 健康 信息 为 核心 .管理 信息 为 纽带 、 分 析 决 策 系统 信息 为 主导 的 全 面 
信息 化 进程 。 它 体现 了 现代 信息 技术 在 医疗 卫生 领域 的 充分 应 用 ,有 助 于 实现 资源 整合 、 流 
程 优 化 ,降低 运行 成 本 ,提高 服务 质量 、 工 作 效 率 和 管理 水 平 。 众 所 周知 ,在 都 市 中 奋斗 的 白 
领 阶级 虽然 拿 着 较 高 的 工资 , 却 也 付出 了 极 大 的 心力 。 据 相关 统计 显示 ,白领 阶层 中 工作 时 
间 超过 8 小 时 的 高 达 90%,10 小 时 以 上 的 占 62.3%, 超 过 12 小 时 的 占 20%, 而 中 国 白领 平 
均 每 周 的 运动 时 间 却 只 有 2. 61 个 小 时 。 长 时 间 超 负荷 的 工作 ,一 再 被 压缩 的 运动 时 间 , 导 
致 越 来 越 多 的 白领 脱离 了 健康 的 “轨道 ”。 由 于 受 限 于 现 有 的 网 络 和 硬件 设施 ,各 区 县 现 有 
的 社区 卫生 服务 应 用 系统 的 建设 差别 较 大 。 比 较 起 来 ,城区 的 社区 卫生 应 用 软件 建设 起 步 
早 , 而 在 偏远 地 区 ,社区 卫生 服务 工作 基本 停留 在 手工 操作 阶段 。 但 是 ,即使 在 经 济 比较 发 
达 的 城区 ,各 区 甚至 各 社区 服务 中 心 都 没有 统一 功能 、 统 一 版 本 的 社区 卫生 服务 信息 系统 ， 
社区 服务 中 心 自行 开发 的 应 用 软件 只 能 满足 基本 的 社区 卫生 服务 要 求 。 这 为 社区 卫生 相关 政 
策 的 执行 ,社区 卫生 服务 系统 与 外 系统 的 接口 带 来 了 极 大 的 不 便 。 因 此 ,从 社区 卫生 管理 的 需 
要 出 发 ,急需 建设 一 套 保留 个 性 化 要 求 的 、 全 市 统一 的 社区 卫生 服务 信息 系统 应 用 软件 。 

“大 数据 十 医疗 ”: 智慧 医疗 探索 数据 显示 ,当前 国内 现 有 2000 多 款 移动 医疗 APP, 且 
处 于 快速 增长 阶段 。2014 年 ,我 国 移动 医疗 市 场 规模 达到 30. 1 亿 元 , 比 2013 年 增长 
26. 8% ,预计 2017 年 将 达到 125. 3 亿 元 。 移 动 医疗 APP 德国 调研 公司 Research2guidance 
报告 称 ,当前 全 球 移动 健康 应 用 的 数量 超过 10 万 项 ,大 部 分 应 用 的 下 载 量 不 超过 5 万 次 , 营 
收 低 于 1 万 美元 。 

《健康 中 国 2030" 规 划 纲 要 》 提 出 ,要 鼓励 和 规范 有 关 企 事业 单位 开展 医疗 健康 大 数据 
创新 应 用 研究 ,构建 综合 健康 服务 应 用 。 事 实 上 ,好 多 与 医疗 相关 的 企业 已 经 开始 了 这 样 的 
探索 。 以 大 数据 为 基础 的 精准 营销 ,已 经 在 颠覆 传统 的 广告 模式 。 有 人 说 ,2013 年 是 大 数 
据 元 年 ,未 来 5 年 会 有 一 大 批 基于 大 数据 商业 模式 的 公司 催生 出 来 。 资 深 互 联网 评论 人 士 
谢 文 认为 ,大 数据 时 代 将 首先 给 健康 和 医疗 领域 带 来 深刻 变革 ,因为 该 领域 已 经 过 了 思想 革 
命 的 概念 阶段 ,逐步 迈 入 商业 模式 创新 时 期 。 这 或 许 恰好 解释 了 为 何 移动 健康 行业 在 2016 年 
成 为 风险 投资 的 热土 。 如 果 把 大 数据 时 代 分 为 前 台中 台 和 后 台 三 个 主 战场 ,前 台 就 是 数据 
终端 ,负责 数据 获取 和 传输 ,如 手机 、 计 算 机 智能 眼镜 、 汽 车 以 及 各 种 传感器 等 ,将 物质 世界 
和 人 类 社会 的 一 切 数 据 化 。 在 谢 文 看 来 .前 台 是 目前 争夺 的 主要 战场 ,出 现 的 创新 数 不 胜 
数 一 一 这 正 是 近 两 年 智能 手表 、 智 能 手 环 .电子 秤 等 智能 可 穿戴 设备 大 热 的 背景 。 与 此 同 
时 ,各 种 健康 数据 收集 平台 也 在 2015 年 陆续 登台 亮相 : 先是 三 星 公 司 5 月 底 发 布 一 款 健康 
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追踪 腕 带 Simband 和 智能 健康 追踪 平台 SIMI., 接 着 苹果 公司 在 6 月 WWDC 大 会 上 发 布 移 
动 应 用 平台 HealthKit, 数 天 之 后 ,谷歌 紧 追 不 舍 在 其 年 度 开 发 者 大 会 上 推出 名 为 Google 
Fit 的 健康 平台 。 近 日 , 微 信 以 公 众 号 为 接口 ,与 吐 响 华为、 乐 心 和 iHealth 4 款 运动 手 环 展 
开 合 作 的 消息 又 博 到 不 少 中国 媒 体 的 眼球 。 外 界 纷 纷 揣测 ,腾讯 公司 此 举 实 乃 有 意 借 微 信 
打造 出 一 个 开放 的 健康 数据 平台 。 面 对 如 火 如 蔡 的 大 数据 争夺 战 ,百度 董事 长 兼 CEO 李 谍 
宏 2015 年 在 黄山 召开 的 “百度 联盟 峰会 "上 语 惊 四 座 :“ 我 们 真正 想 要 的 数据 现在 没有 ,或 
是 还 没有 搜集 上 来 ,已 经 被 搜集 上 来 的 数据 基本 没有 价值 .” 

“大 数据 十 智能 穿戴 ”: 移动 医疗 创新 " 戴 个 手 环 、. 和 弄 个 眼镜 ”, 计 算 每 天 走 多 少 步 、 消 耗 
了 多 少 卡路里 ,心跳 多 少 次 ,对 治 病 没 有 什么 帮助 。“ 互 联网 公司 通过 可 穿戴 设备 搜集 了 很 
多 数据 ,结果 又 发 现 没 法 对 这 些 数据 进行 分 析 ” 李 彦 宏 说 。 在 利用 体检 数据 方面 ,美国 硅谷 
早 有 成 功 案例 。 几 年 前 ,经 尔 纬 数据 技术 有 限 公 司 创始 人 糜 万 军 在 美国 硅谷 完成 了 一 个 大 
数据 创业 项 目 。 该 项 目 利用 数据 挖掘 技术 ,综合 分 析 斯 坦 福 大 学 全 校 员工 的 体检 记录 和 就 
诊 记录 ,并 据 此 对 所 有 人 每 年 的 医疗 费用 进行 预测 。 廉 万 军 说 ,项 目 成 立 的 初衷 ,是 希望 利 
用 个 人 的 医疗 信息 预测 其 医疗 费用 ,给 保险 公司 作 参 考 。 但 后 来 ,美国 许多 大 企业 却 成 为 客 
户 的 主要 来 源 。 变 化 是 这 样 发 生 的 : 麻 万 军 带 领 的 团队 ,在 了 解 每 名 员工 的 健康 状况 之 后 ， 
通过 数据 分 析 , 为 其 制订 了 个 性 化 的 健身 计划 ,有 效 地 帮助 员工 改善 了 健康 状况 。 这 项 业务 
受到 美国 企业 的 欢迎 ,从 斯 坦 福 大 学 到 思科 、 苹 果 等 大 公司 ,都 乐于 购买 它 的 服务 。 创 新 总 
在 以 极 快 的 速度 迭代 ,但 在 李彦宏 看 来 ,真正 能 给 医疗 健康 行业 带 来 革新 的 ,是 一 种 * 慢 数 
据 ”; 通过 一 种 简单 的 方法 ,在 三 个 月 、 半 年 甚至 更 长 的 时 间 内 ,持续 不 断 地 监测 你 的 某 些 指 
标 ,通过 长 时 间 的 数据 积累 ,准确 预测 你 未 来 患 上 某 种 疾病 的 可 能 性 ,以 达到 中 医 所 讲 的 “ 治 
未 病 ” 的 效果 。 这 并 非 空穴来风 。2015 年 发 表 在 阿尔 芯 海 默 症 国际 会 议 上 的 4 篇 论文 进 一 
步 支持 了 如 下 结论 : 通过 对 眼睛 和 嗅觉 的 检测 ,能够 预测 阿尔 芯 海 默 症 (俗称 老年 痴呆 症 ) 的 
发 生 。 无 独 有 侦 , 同 年 伊利 诺 斯 大 学 的 研究 者 透露 ,他 们 根据 现 有 数据 研究 发 现 , 人 脸 的 衰老 
速度 与 寿命 之 间 存 在 着 确切 的 关联 。 假 设 该 研究 顺利 进入 应 用 阶段 ,保险 公司 只 需 对 准 顾客 
的 面部 乃至 照片 扫描 一 番 , 即 可 知晓 他 的 天 寿 几 何 ,从 而 优化 该 顾客 的 相关 保险 配置 。 

“看 病 难 、 看 病 贵 " 是 当前 我 国 一 个 严重 的 社会 问题 ,各 级 医院 承担 着 大 部 分 为 人 民 群 众 
提供 优质 价 廉 的 医疗 服务 的 任务 ,任务 十 分 繁重 。 县 级 医院 是 省 .市 .县 城市 三 级 医疗 卫生 
服务 网 的 基础 ,又 是 农村 三 级 医疗 卫生 服务 网 的 龙头 ,是 与 群众 关系 最 为 密切 的 公立 医院 ， 
在 我 国医 疗 服务 体系 中 起 着 承上启下 的 重要 作用 。 医 改 提出 以 信息 化 建设 作为 医院 改革 的 
技术 支撑 。 大 力 加 强 医 疗 机 构 的 信息 化 建设 ,是 推进 公立 医院 改革 、 提 高 其 管理 和 服务 水 平 
的 重要 手段 。 经 过 多 年 的 信息 化 建设 ,我 国医 院 信息 化 建设 已 经 达到 一 定 水 平 。 但 是 ,我 国 
医院 信息 化 建设 的 发 展 很 不 平衡 ,总 体 而 言 ,县 级 医院 的 信息 化 建设 落后 于 其 他 二 三 级 医 
院 , 中 西部 地 区 医院 的 信息 化 建设 落后 于 东部 沿海 地 区 医院 。 这 种 失衡 的 状况 不 利于 中 西 
部 地 区 医院 整体 管理 和 服务 水 平 的 提升 ,妨碍 着 医疗 信息 跨 地 域 的 互联 共享 ,目前 的 状况 陂 
待 加 以 扭转 。 

为 贯彻 落实 深化 医药 卫生 体制 改革 精神 ,中 央 财 政 已 安排 资金 ,准备 在 2015 年 启动 
《2015 年 中 西部 地 区 县 级 医院 信息 化 建设 项 目 方 案 ), 重 点 支持 一 批 县 (市 ,区 ) 医 院 和 新 疆 
生产 建设 兵团 医院 的 信息 化 建设 。 
重庆 市 作为 全 国 5 个 试点 省 市 之 一 .承担 4 个 国家 试点 项 目 建设 ,是 试点 项 目 最 多 的 省 
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市 ,是 卫生 部 对 重庆 工作 的 肯定 和 信任 。 重 庆 市 卫生 信息 化 基础 工作 与 东部 发 达 地 区 相 比 
有 一 定 差距 ,试点 项 目 要 在 重庆 能 够 做 出 成 绩 , 做 成 亮点 ,摸索 出 在 西部 地 区 卫生 信息 化 建 
设 新 的 机 制 和 体制 ,为 全 国 卫生 信息 化 建设 提供 经 验 ,为 “健康 重庆 ”建设 做 出 贡献 。 


8.1 医疗 信息 化 


信息 化 是 现代 医疗 的 发 展 趋势 。 医 疗 信息 化 是 指 先 进 的 网 络 及 技术 应 用 于 医院 及 相关 
医疗 机 构 ,实现 医疗 和 管理 信息 的 数字 化 采集 ,存储 数据 转化 与 数据 整合 ,以 及 各 项 业务 流 
程 数 字 化 运作 的 医疗 信息 体系 。 随 着 互联 网 、 物 联网 、 云 计算 等 的 快速 发 展 ,特别 是 数字 化 
医院 建设 及 可 穿戴 设备 ,核磁 共振 、 高 能 射线 等 的 广泛 应 用 ,各 医疗 平台 无 时 无 刻 不 在 产生 
出 涵盖 人 体 各 部 位 的 成 千 上 万 的 海量 数据 ,并 呈现 指数 级 大 爆发 ,而 传统 数据 库 和 信息 系统 
架构 已 无 法 及 时 管理 和 分 析 这 些 数据 ,于 是 医疗 “大 数据 ”时代 悄然 而 至 。《 大 数据 时 代 ) 作 
者 维克托 。 迈 尔 。 侈 恩 伯 格 ,在 书 中 前 脆性 地 指出 ,大 数据 带 来 的 信息 风暴 正在 变革 人 们 的 
生活 .工作 和 思维 ,即将 开启 人 们 思维 .商业 和 管理 重大 变革 的 时 代 转 型 。 利 用 这 些 海量 信 
息 资 源 更 好 地 为 临床 医疗 医学 科研 .卫生 管理 服务 ,成 为 当下 各 级 卫生 管理 机 构 和 管理 者 
吸 待 决策 的 时 代 发 展 课题 ,对 优化 卫生 资源 配置 ,促进 医疗 方式 改革 ,提高 医疗 服务 效率 , 降 
低 医 疗 保障 成 本 等 具有 重要 意义 。 


8.1.1 美国 医疗 信息 化 发 展 情况 


全 球 医 疗 信息 化 的 开端 可 以 追溯 到 20 世纪 50 年 代 , 那 时 计算 机 技术 也 刚刚 兴起 。 然 
而 , 相 比 其 他 行业 的 信息 化 速度 ,医疗 行业 的 信息 化 速度 要 慢 很 多 。 这 主要 与 医疗 行业 所 具 
有 的 一 些 特殊 性 有 关 。 一 直 以 来 ,医疗 技术 的 发 展 始终 走 着 一 条 相对 保守 的 路 线 ,因为 医学 
是 一 门 要 求 非常 严谨 的 学 科 , 稍 微 的 偏差 都 可 能 以 患者 付出 生命 为 代价 。 因 此 ,医学 的 发 展 
更 需要 精准 化 ,精细 化 、 科 学 化 和 现代 化 。 

1. 美国 医疗 信息 化 发 展 回顾 

西方 最 早 的 “病历 记录 ”可 以 追溯 到 公元 前 1600 年 记录 在 莎 草 纸 上 古 埃及 的 一 个 手术 
记录 。 中 世纪 著名 的 伊斯兰 医生 阿尔 。 哈 兹 在 中 世纪 (公元 8 世纪 到 9 世纪 ) 延 续 古 希腊 科 
学 家 记录 病情 的 方式 ,记录 着 患者 的 病情 ,成 为 当时 记录 病例 最 多 的 医生 。 中 世纪 前 的 病历 
记录 以 医生 主观 的 病情 发 展 和 描述 为 主 ,主要 用 于 传授 医学 知识 。 延 从 西方 欧洲 医生 保留 
为 自己 患者 治疗 记录 的 习惯 ,美国 医生 在 17 世纪 也 开始 记录 和 保存 为 患者 治疗 的 记录 ,其 
中 的 代表 就 是 在 爱丁堡 接受 医学 教育 的 本 杰 明 ，。 拉 什 医生 (Benjamin Rush)。 值 得 一 提 的 
是 , 拉 什 医生 是 美国 国父 之 一 ,他 是 大 陆军 的 总 军医 ,并 且 在 独立 宣言 上 签 过 字 。 

美国 第 一 家 开始 病历 记录 的 医院 是 纽约 市 医院 (New York Hospital) 。 纽 约 市 医院 从 
1793 年 开始 对 医院 的 患者 进行 病历 记录 ,但 是 病历 上 只 有 简单 的 入院 和 出 院 记 录 和 描述 。 
从 1808 年 开始 ,纽约 市 医院 开始 把 医生 个 人 对 于 患者 病情 的 记录 报告 复制 抄录 下 来 ,作为 
医院 图 书馆 的 档案 保存 。 这 个 时 候 的 记录 就 已 经 包括 : 病史 ,病因 ,治疗 方法 ,以 及 治疗 效 
果 。 然 而 ,这 个 时 候 的 病历 不 是 为 患者 使 用 ,而 是 属于 医院 和 医生 的 私人 记录 。 

从 1821 年 开始 , 麻 省 总 医院 的 医生 也 开始 记录 入 院 患 者 的 情况 ,并 把 这 些 记录 抄录 在 
医院 的 档案 中 。 在 19 世纪 后 期 , 当 患者 的 记录 充实 并 详细 后 ,很 多 案例 才 被 用 于 哈佛 大 学 
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医学 院 的 教学 中 。19 世纪 后 期 的 病历 记录 开始 包括 详细 的 患者 家 庭 病史 、 患 者 生活 习惯 、 
病史 、 身 体检 查 结果 、 血 液 和 尿 液 检验 结果 ,病程 记录 ,以 及 出 院 诊断 和 出 院 说 明 。 但 此 时 的 
病历 仍然 内 容 分 散 , 无 序 , 而 且 很 少 有 医生 的 签名 确认 。 例 如 ,研究 发 现 作 为 19 世纪 名 医 代 
表 的 约翰 霍 普 金 斯 四 大 名 医 之 一 的 “威廉 。 奥 斯 勒 "(William Osler) 的 病历 记录 就 非常 零 
散 ,而 且 鲜 有 其 签字 确认 。 

现代 病历 发 展 史 的 第 一 个 飞跃 式 创新 发 生 在 1907 年 圣 玛丽 医院 和 梅 奥 诊 所 。 现 代 医 
院 病 历 的 创始 人 梅 奥 诊 所 的 享 瑞 * 布朗 门 (Henry Plummer) 医 生 开创 了 现代 病历 的 改革 。 
现在 看 来 简单 易 行 的 纸 质 病历 制度 在 20 世纪 初期 却 是 医学 史上 质 的 飞跃 之 一 。 在 布朗 门 
医生 发 明 现代 医院 病历 前 ,病历 系统 是 “流水账 "的 形式 。 每 个 患者 没有 统一 的 病历 号 ,而 且 
患者 的 病程 情况 和 各 种 检查 结果 可 能 分 散在 不 同 诊所 或 医院 内 。 布 朗 门 医生 从 1907 年 
7 月 1 日 开始 在 梅 奥 诊所 推行 新 的 病历 制度 ,每 个 患者 只 有 一 个 病历 号 和 一 个 集中 的 病历 
“夹子 ”。 所 有 这 个 患者 的 病情 的 记录 和 各 种 化 验 结果 都 集中 在 这 个 "夹子 "里 ,并 跟随 患者 。 
患者 把 在 不 同 的 医疗 机 构 中 就 诊 的 记录 放 在 这 个 夹子" 里。 无论 去 多 少 个 地 方 多 少 次 就 
诊 ,这 个 “夹子 "包含 患者 整体 的 病情 状况 。 很 快 ,布朗 门 医生 发 明 的 这 套 体系 在 世界 范围 内 
开始 普及 。 此 后 ,1916 年 ,纽约 长 老 会 医院 进一步 发 展 并 设计 了 针对 每 个 病 区 的 病历 系统 。 

美国 现代 病历 发 展 历史 的 第 二 次 飞跃 式 创 新 是 对 于 病历 结构 标准 化 。1918 年 ,“ 美 国 
外 科学 会 "(American College of Surgery) 要 求 医 院 对 于 所 有 患者 情况 进行 记录 ,包括 对 于 
治疗 和 结果 的 总 结 。 

拉 里 。 维 德 (Larry Weed) 在 20 世纪 60 年 代 带 来 了 美国 病历 史 的 第 三 次 飞跃 。 维 德 医 
生 将 “问题 导向 型 病历 记录 ”(Problem Oriented Medical Record) 引 入 医疗 实践 中 ,并 将 纸 质 
病历 电子 化 。 维 德 医生 被 誉 为 “问题 导向 型 病历 之 父 ”, 其 创新 在 于 “问题 导向 型 病历 记录 ” 
可 以 让 第 三 方 独立 地 确认 诊断 。 医 疗 信息 化 科研 和 教育 非 僵 利 性 机 构 Regenstreif 
Institute 在 1972 年 推出 了 第 一 个 电子 病历 系统 。 

2. 美国 大 数据 医疗 服务 模式 发 展现 状 

美国 政府 将 大 数据 定义 为 “未 来 的 新 财富 ,价值 堪 比 石油 ,将 “大 数据 战略 "上升 为 国家 
意志 ,投入 巨 资 拉 动 大 数据 相关 产业 发 展 。2012 年 ,奥巴马 政府 宣布 “大 数据 研究 和 发 展 计 
划 ”, 研 发 大 数据 技术 。 

(1) 实施 精准 医疗 计划 。 

精准 医疗 是 一 种 基于 患者 “定制 ”的 医疗 模式 ,在 这 种 模式 下 ,医疗 的 决策 .实施 等 都 针 
对 每 一 个 患者 个 体 特征 而 制定 ,疾病 的 诊断 和 治疗 在 合理 选择 患者 自己 的 遗传 .分 子 或 细胞 
学 信息 的 基础 上 进行 , 因 人 因 病 而 异 , 是 “个 体 化 医疗 ”的 延伸 。 从 概念 上 可 以 看 出 ,患者 个 
人 的 遗传 信息 (基因 组 ) 是 精准 医疗 的 支撑 基础 ,也 就 是 对 基因 组 信息 的 详细 注释 ,以 及 临床 
化 使 用 ,才能 保证 精准 医疗 的 实施 。 精 准 医疗 所 使 用 的 工具 ,通常 包括 分 子 诊断 .影像 以 及 
相应 的 软件 等 。2015 年 ,奥巴马 在 国情 咨文 演讲 中 宣布 的 精准 医疗 计划 ,是 新 的 大 规模 研 
发 项 目 , 白 宫 官网 发 布 精准 医疗 计划 的 相关 细节 : 2016 年 ,美国 财政 预算 计划 拨付 给 NIH、 
美国 食品 药品 监督 管理 局 (FDA) 、 美 国 国家 医疗 信息 技术 协调 办 公 室 (ONC) 等 机 构 共 2. 15 
亿美 元 用 于 资助 这 方面 的 科学 研究 .创新 发 展 。 毫 无 疑问 ,该 投资 计划 将 加 快 在 基因 组 层面 
对 疾病 的 认识 ,并 将 最 新 最 好 的 技术 .知识 和 治疗 方法 提供 给 临床 医师 ,使 医师 能 够 准确 了 
解 病因 ,有 针对 性 地 选择 用 药 ,避免 浪费 ,减少 相应 副作用 的 产生 。 据 说 个 人 的 基因 筛 查 成 
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本 已 经 降 到 70 美元 , 且 成 本 还 在 快速 下 降 , 筛 查 速度 还 在 提高 ,并 已 有 部 分 能 用 于 临床 。 由 
于 基因 筛 查 技术 的 进展 ,未 来 的 精准 医疗 有 望 变 成 临床 现实 。 

(2) 计算 机 医师 临床 诊断 。 

20 世纪 70 年 代 , 美 国 匹 效 堡 大 学 的 研究 人 员 开 发 了 用 于 诊断 普 内 科 复 杂 病 症 的 软件 
“快捷 医疗 参考 ”, 这 款 医疗 诊断 专家 系统 能 够 诊断 超过 600 种 疾病 ,收集 了 4300 种 临床 表 
征 (包括 病情 症状 ,医师 问 诊 、 实 验 室 检 验 结果 等 ) ,经 过 系统 程序 运算 ,提高 快速 诊断 的 可 能 
性 。20 世纪 80 年 代 , 美 国 麻 省 总 医院 (MGH) 开 发 和 完善 了 DxPlan 项 目 ,其 所 涵盖 的 知识 
领域 包括 内 科 各 专科 的 多 数 疾病 及 临床 表征 ,使 用 者 可 向 计算 机 咨询 下 一 步 应 做 何 种 检验 
及 测试 ,以 最 少 的 花费 得 到 最 多 的 信息 。2010 年 秋 ,“ 伊 莎 贝尔 保健 系统 ”在 美国 佛罗里达 
州 的 奥兰多 保健 医院 联网 使 用 ,为 医师 提供 可 靠 的 诊断 和 治疗 建议 ,一 些 经 验 较 少 ,临床 实 
践 不 多 的 医师 能 从 该 系统 获得 更 多 帮助 。2013 年 ,由 IBM 的 30 位 工程 师 耗 时 3 年 研发 的 
计算 机 医师 沃 森 (Watson) 在 美国 安德森 癌症 中 心 开 始 上 岗 , 其 既是 癌症 诊断 专家 ,又 是 医 
疗 服务 管理 的 专业 人 士 ,从 此 计算 机 辅助 诊断 翻 开 新 的 一 页 ,正式 迈 入 * 沃 森 时 代 ”。 沃 森 的 
运作 模式 非常 类 似 人 脑 ,自然 语言 处 理 能 力 能 全 方位 地 模仿 人 类 的 医师 ,能 像 真人 医师 一 样 
“当面 ?听取 患者 对 疾病 的 叙述 ,再 对 患者 的 问题 进行 解答 ,然后 做 出 诊断 和 开 出 药方 。 沃 森 
具有 超 强 的 认 知 计算 能 力 ,从 患者 病例 和 丰富 的 研究 资料 库 中 寻找 资料 ,为 临床 医师 提供 有 
价值 的 见解 ,帮助 医务 人 员 找 到 最 有 效 的 治疗 方案 ,在 医疗 领域 具有 广泛 的 应 用 。 

(3) 建立 患者 为 中 心 的 医疗 模式 。 

2013 年 (美国 医学 会 杂志 》(JAMA ) 撰 文 指出 ,大 数据 在 医疗 方面 的 应 用 势不可挡 ,将 
从 新 知识 的 产生 、 医 疗 质 量 的 提高 ,个体 化 医疗 和 临床 决策 等 多 个 层面 ,推动 医疗 模式 从 以 
医师 为 中 心 向 以 患者 为 中 心 的 改变 。 以 患者 为 中 心 的 高 效 医疗 模式 代表 医疗 服务 发 展 和 服 
务 理念 的 转变 ,是 医疗 体制 改革 的 最 终 目标 。 以 患者 为 中 心 的 医疗 模式 充分 尊重 患者 ,对 其 
兴趣 .需求 和 价值 观 做 出 快速 回应 ,确保 所 有 临床 决策 以 患者 的 价值 观 为 导向 。 而 尊重 患者 
的 价值 观 . 个 体 化 特征 和 需求 ,协调 和 整合 不 同 专业 的 医疗 服务 .情感 支持 ,做 出 决策 时 征求 
患者 和 家 属 的 意见 ,保持 医疗 服务 的 连续 性 和 可 及 性 ,是 提高 医疗 质量 的 基本 要 求 。 大 数据 
则 因为 有 效 的 数据 整合 模式 ,可 以 满足 以 患者 为 中 心 医疗 服务 的 个 性 化 医疗 、 协 调和 沟通 、 
患者 支持 和 赋 权 以 及 良好 可 及 性 等 多 方面 需求 ,为 其 提供 卓越 的 技术 平台 ,从 医学 研究 、 临 
床 决策 疾病 管理 .患者 参与 及 医疗 卫生 决策 等 方面 推动 医疗 模式 的 转变 。 

在 2016 年 世界 生命 科学 大 会 召开 之 际 , 中 共 中 央 政 治 局 常委 、 国 务 院 总 理 李克强 做 出 
重要 批示 。 批 示 指 出 : 生命 科学 是 21 世纪 重要 的 综合 性 学 科 领 域 ,关系 人 类 的 生存 、 健 康 
和 可 持续 发 展 。 中 国政 府 正在 深入 实施 创新 驱动 发 展 战略 ,落实 “健康 中 国 2030” 规 划 纲 
要 ,通过 科技 创新 有 力 推动 生命 科学 领域 的 研究 与 相关 产业 快速 发 展 ,对 提高 人 民 健 康 和 生 
活水 平 ,改善 环境 质量 正 发 挥 着 日 益 重 要 和 明显 的 作用 。 希望 中 国 科 学 家 ,企业 家 与 各 国 同 
行 一 起 ,围绕 本 次 世界 生命 科学 大 会 的 主题 ,瞄准 生命 科学 重大 需求 ,进一步 加 强 交 流 与 合 
作 , 相 互 借鉴 ,以 更 多 科学 突破 和 创新 积极 应 对 人 类 生存 发 展 面临 的 共同 挑战 ,形成 新 的 生 
产 力 ,推动 世界 经 济 社会 可 持续 发 展 , 共 创 人 类 美好 的 未 来 。2016 世界 生命 科学 大 会 在 北 
京 开幕 ,10 位 诺 贝尔 奖 获得 者 、3 位 世界 粮食 奖 获得 者 、3 位 沃 尔 夫 农业 奖 获得 者 齐 聚 。 生 
命 科 学 大 会 围绕 目前 全 球 的 热点 领域 .如 精准 肿瘤 学 .免疫 治疗 .基因 编辑 .干细胞 与 再 生 医 
学 等 进行 了 为 期 3 天 的 分 组 讨论 。 涉 及 主题 多 达 66 个 ,是 迄今 为 止 我 国 举办 的 生命 科学 领 
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域 层 次 最 高 ,覆盖面 最 广 的 一 次 国际 学 术 盛会 。 
8.1.2 我 国医 疗 信息 化 发 展 趋势 


数字 化 医院 是 我 国 现代 医疗 发 展 的 趋势 。“ 数 字 化 医院 ”是 指 将 先进 的 网 络 及 数字 技术 
应 用 于 医院 及 相关 医疗 工作 ,实现 医院 内 部 医疗 和 管理 信息 的 数字 化 采集 、 存 储 \ 传 输 及 后 
处 理 , 以 及 各 项 业务 流程 数字 化 运作 的 医院 信息 体系 。“ 数 字 化 医院 ”是 由 数字 化 医疗 设备 、 
计算 机 网 络 平台 和 医院 业务 软件 所 组 成 的 三 位 一 体 的 综合 信息 系统 。 数 字 化 医院 工程 体现 
了 现代 信息 技术 在 医疗 卫生 领域 的 充分 应 用 ,有 助 于 医院 实现 资源 整合 、 流 程 优化 ,降低 运 
行 成 本 ,提高 服务 质量 .工作 效率 和 管理 水 平 。 

1. 我 国医 疗 信息 化 发 展 基本 情况 

数字 化 医院 一 般 由 以 下 系统 组 成 : HISCHospital Information System ,医院 信息 系统 )、 
PACS( Picture Archiving and Communication Systems, 医学 图 像 档案 管理 和 通信 系统 )、 
EMR (Electronic Medical Record, 电 子 病历 系统 )、LIS(Laboratory Information System, 检 
验 信息 系统 )、CIS (Clinic Information System, 临床 管理 信息 系统 )、RIS (Radiology 
Information System ,放射 科 信 息 系 统 )\EHR(Electronic Health Record, 电 子 健康 档案 系 
统 ).GMIS(Globe Medical Information Service, 区 域 医 疗 卫 生 服 务 ) 。 

医院 管理 信息 系统 (HIS) 是 以 财务 为 中 心 的 ,偏重 管理 。“ 医 院 信息 系统 "是 医院 的 管 
理 中 枢 , 包 含 财务 、 人 事 、 住 院 、 药 品 、 门 诊 、 医 技 、 病 程 \ 收 费 等 多 个 子 系 统 , 同 时 承担 着 “临床 
管理 ”与 “行政 管理 ”的 双重 使 命 。 

临床 管理 信息 系统 (CIS) 是 偏重 于 病人 信息 的 ,更 加 倾向 于 医疗 相关 的 信息 。 人 们 常 
常 把 关于 病人 化 验 信息 、 放 射 的 信息 和 病人 临床 检查 信息 , 划 归 临床 信息 系统 。 

医疗 影像 系统 (PACS) 是 医院 的 影像 中 心 , 它 承担 着 从 CT、X 光 机 等 各 类 成 像 检 查 设 
备 中 采集 影像 资料 .对 这 些 资料 加 以 处 理 和 存储 并 为 一 线 医 师 提 供 查 询 服务 的 使 命 。 

电子 病历 系统 (EMR) 是 医院 的 病历 中 心 , 它 详细 记录 了 患者 的 治疗 方案 和 治疗 过 程 ， 
既 为 医院 积累 了 宝贵 的 治疗 经 验 ,又 为 处 理 医 患 纠纷 提供 了 不 可 或 缺 的 证 明文 件 。 

社会 保险 系统 则 连通 了 医院 与 社保 部 门 的 业务 后 台 , 它 为 医院 接 诊 并 服务 好 广大 社保 
患者 提供 了 支持 。 

数字 化 将 推动 医院 集团 化 .区 域 化 ,并 改变 医院 原 有 的 工作 模式 。 建 立 区 域 性 的 影像 中 
心 (病理 .CT、MRI 等 ) 实 现 医学 图 像 网 络 传输 。 建 立 区 域 性 的 中 心 实验 室 实现 检查 结果 网 
上 传输 ,节约 资源 。 信 息 中 心 社会 化 ,医院 不 再 建立 网 络 、 服 务 器 中 心 , 将 采用 租用 电信 运营 
商 网 络 线路 ,建立 区 域 性 的 数据 中 心服 务 器 中 心 和 数据 仓库 。 实 现 医学 文献 资料 的 共享 ， 
解决 各 医院 网 络 建设 重复 、 利 用 率 低 、 资 源 浪 费 的 缺陷 。 区 域 性 的 各 类 医学 服务 中 心 的 建 
立 , 将 使 卫生 资源 获得 最 大 程度 的 利用 。 

信息 系统 建设 作为 医疗 行业 信息 化 的 核心 内 容 , 在 近 几 年 的 发 展 中 经 历 了 不 同 的 阶段 。 
目前 ,中 国 大 部 分 的 医院 信息 系统 仍然 是 以 经 济 核算 为 中 心 的 管理 信息 系统 (HIS), 仅 有 小 
部 分 的 医院 在 管理 信息 系统 的 基础 上 开始 建立 用 于 临床 医疗 业务 的 临床 信息 系统 (CIS)， 
并 且 系 统 建 设 主要 还 是 集中 在 大 中 型 医院 。 临 床 信 息 系统 的 主要 功能 是 支持 医院 医护 人 员 
的 临床 活动 ,收集 和 处 理 病 人 的 临床 医疗 信息 ,丰富 和 积累 临床 医学 知识 ,并 提供 临床 咨询 、 
辅助 诊疗 、 辅 助 临床 决策 ,提高 医护 人 员 的 工作 效率 。 广义 上 的 临床 信息 系统 包括 医生 工作 
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站 系统 、 护 理 信息 系统 、 检 验 信息 系统 (LIS) .放射 信息 系统 (RIS)、 医 疗 影像 存储 与 传输 系 

统 (PACS) ,以 及 电子 病历 (EMR) 系 统 等 。 

2. 我 国 大 数据 医疗 服务 模式 快速 发 展 
中 国 在 互联 网 技术 、 产 业 、 应 用 以 及 跨 界 融合 等 方面 取得 快速 进展 ,打开 了 医疗 卫生 体 

制 变革 的 无 限 可 能 性 和 想象 空间 。 国 务 院 2015 年 7 月 颁发 的 (关于 积极 推进 “互联 网 十 ” 行 

动 的 指导 意见 ) 清 晰 勾勒 了 “互联 网 十 医疗 ”的 行动 路 线 , 对 处 于 火热 ,混沌 中 的 医疗 改革 不 

仅 是 催化 剂 ,更 是 一 股 提神 醒 脑 的 清风 。 

(1) 在 线 医疗 。 
“互联 网 十 ”是 把 互联 网 的 创新 成 果 与 经 济 社会 各 领域 深度 融合 ,推动 技术 进步 ,效率 提 
升 和 组 织 变革 ,提升 实体 经 济 创新 力 和 生产 力 , 形 成 更 广泛 的 以 互联 网 为 基础 设施 和 创新 要 
素 的 经 济 社会 发 展 新 形态 。 史 上 最 具 互 联网 思维 的 《指导 意见 ,确立 了 “到 2018 年 在 健康 
医疗 领域 互联 网 应 用 更 加 丰富 ,公共 服务 更 加 多 元 ,社会 服务 资源 配置 不 断 优 化 ”的 发 展 目 
标 ,并 明确 指出 : 发 展 基 于 互联 网 的 医疗 卫生 服务 ,支持 第 三 方 机 构 构 建 医学 影像 ,健康 档 
案 \ 检 验 报告 .电子 病历 等 医疗 信息 共享 服务 平台 ,逐步 建立 跨 医院 的 医疗 数据 共享 交换 标 
准 体系 。 各 医疗 机 构 要 积极 利用 移动 互联 网 提供 在 线 预 约 诊 疗 、 修 诊 提醒 、 划 价 缴费 ,诊疗 
报告 查询 ,药品 配送 等 便捷 服务 。 引 导 医 疗 机 构 面向 中 小 城市 和 农村 地 区 开展 基层 检查 、 上 
级 诊断 等 远程 医疗 服务 。 鼓 励 互 联网 企业 与 医疗 机 构 合 作 建立 医疗 网 络 信息 平台 ,加 强 区 
域 医疗 卫生 服务 资源 整合 ,充分 利用 互联 网 ,大 数据 等 手段 ,提高 重大 疾病 和 突 发 公共 卫生 
事件 防 控 能 力 。 积 极 探索 互联 网 延伸 医嘱 .电子 处 方 等 网 络 医疗 健康 服务 应 用 。 鼓 励 有 资 
质 的 医学 检验 机 构 、 医 疗 服务 机 构 联合 互联 网 企业 ,发展 基 因 检 测 、 疾 病 预防 等 健康 服务 模 
式 。“ 互 联网 十 医疗 ”的 最 大 优势 是 能 够 实现 健康 与 疾病 诊治 相关 信息 采集 .储存 .交换 ,以 
及 共享 使 用 全 过 程 的 自动 化 和 智能 化 ,提高 优质 医疗 资源 的 可 及 性 ,解决 医疗 行业 缺乏 标准 
和 规范 、 缺 乏 连续 性 、 容 易 出 现 重复 诊断 和 治疗 等 低 效率 问题 ,促进 “最 佳 医疗 实践 "的 推广 。 
我 国有 完整 的 公立 医疗 体系 ,容易 实现 信息 的 互联 .互通 和 互 享 ,创造 出 远程 医疗 ,移动 医 
疗 . 可 穿戴 设备 等 更 多 为 患者 服务 的 新 模式 。 

(2) 移动 互联 网 医院 群 。 

2015 年 7 月 深圳 市 南山 区 卫生 计生 局 及 区 属 5 家 医院 作为 “互联 网 十 ”的 主体 ,成 功 地 
向 公众 开放 “移动 互联 网 医院 群 > 暨 “南山 看 病 易 ” 服 务 平 台 ,整合 区 域 医 疗 资源 ,构建 从 社区 
到 医院 ,从 门诊 到 住院 .从 医疗 到 健康 的 全 流程 便民 惠 民 服务 体系 。 打 破 医院 与 患者 的 物理 
围墙 ,打破 各 医院 间 的 信息 壁垒 ,将 医院 及 社区 健康 中 心 自身 的 服务 延伸 到 移动 互联 网 ,无 
须 下 载 与 安装 APP, 只 需 在 微 信 公 众 号 关注 “南山 看 病 易 ”, 就 能 获取 初诊 、 智 能 导 诊 、 预 约 
挂号 ,门诊 付费 ,检验 /检查 报告 ,住院 押金 预 交 住 院 每 日 费用 清单 、 出 院 小 结 、 住 院 结算 、 就 
医 评价 ,健康 资讯 等 ,降低 民众 获取 医疗 与 健康 服务 的 门槛 ,节省 患者 看 病 就 医 时 间 .改善 患 
者 就 医 体 验 ,为 医疗 服务 的 数据 互联 互通 、 个 人 健康 档案 信息 共享 ,医疗 大 数据 的 积累 打下 
坚实 基础 。 移 动 互联 网 医院 群 具有 5 大 领先 优势 : 全 国 首 个 “1 十 N” 模 式 的 “移动 互联 网 
医院 群 ?平台 架构 ,统一 部 署 “ 移 动 互 联网 医院 ”平台 .同时 构建 "南山 看 病 易 ” 区 域 统一 入 口 
及 5 家 医院 独立 入 口 ,确保 在 区 内 任意 一 家 医院 均 可 享受 到 一 致 的 就 医 体验 ,实现 区 内 医疗 
资源 的 互补 与 共享 ,方便 区 内 市 民选 择 就 医 ; @ 一 处 建 卡 、 全 区 就 诊 ,患者 在 医院 群 的 任意 
一 家 医院 登记 建 卡 , 便 可 在 区 内 的 所 有 医院 实现 一 卡通 就 诊 ,无 须 重复 建 卡 ; @ 区 域 检验 、 
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检查 结果 的 共享 ,患者 在 任意 一 家 医院 的 检验 ,检查 结 果 信 息 , 均 可 在 群 内 医院 调 阅 与 共享 ; 
@ 社 区 初诊 引导 ,为 分 级 诊疗 打下 基础 ,将 社区 健康 服务 中 心 的 医疗 资源 接 入 群 内 ,在 导 诊 
环节 引导 患者 到 社区 健康 服务 中 心 进行 初诊 ,为 未 来 完善 分 级 诊疗 ,双向 转 诊 、 区 域 协同 打 
下 坚实 的 基础 ; @ 区 域 私有 云 部 署 .安全 自主 可 控 ,在 区 域 卫生 信息 中 心 基 于 Apusic 自主 
知识 产权 的 中 间 件 构建 私有 云 ,部 署 患 者 移动 服务 平台 , 既 满 足 医院 群 间 的 信息 集中 共享 ， 
又 达到 安全 自主 可 控 , 这 是 移动 互联 网 医院 群 平台 与 其 他 第 三 方 APP 的 本 质 区 别 。 其 将 建 
设 区 域 智慧 医疗 体系 ,形成 更 好 的 分 级 诊疗 ,双向 转 诊 .区 内 协作 ,让 民众 切实 感受 到 医改 的 
成 效 。 

(3)“ 云 医院 ”运营 模式 。 

我 国 患者 看 病 难 、 看 病 贵 问题 长 时 间 得 不 到 有 效 解决 , 医 患 关 系 紧张 ,医师 工作 强度 大 、 
收入 低 、 风 险 高 ,三 甲 医院 超 负 荷 运 作 , 而 基层 医疗 机 构 利 用 效率 却 不 高 ,互联 网 则 是 最 可 能 
迅速 改变 这 一 状态 的 切入 口 。2015 年 3 月 ,全 国 第 一 家 云 医院 一 一 “宁波 云 医 院 ” 正 式 启动 
运营 ,这 个 基于 云 计算 、 大 数据 、 互 联网 、 物 联网 等 新 一 代 信息 技术 的 城市 健康 平台 , 正 试图 
在 解决 现 有 医疗 卫生 系统 性 问题 的 同时 ,用 互联 网 手段 放大 现 有 医疗 资源 ,成 为 面向 全 世界 
的 “无 围墙 ?的 医院 联合 体 。 据 宁波 市 卫生 和 计划 生育 委员 会 信息 ,宁波 云 医院 将 成 为 一 个 
集 健康 大 数据 采集 ,健康 管理 ,医疗 、 康 复 服务 等 为 一 体 的 协同 医疗 与 健康 管理 平台 ,帮助 医 
院 提升 现 有 的 医疗 服务 效率 ,开拓 健康 医疗 服务 更 大 发 展 空间 ,通过 互联 网 完成 大 医院 与 基 
层 医院 、 知 名 专家 与 社区 医师 ,医师 与 患者 之 间 的 互动 与 沟通 ,实现 跨 区 域 .资源 共享 、 协 同 
的 医疗 服务 模式 。 其 既是 一 个 医师 多 点 执业 的 平台 ,也 同时 是 一 个 集成 的 相关 产业 平台 , 首 
批 接 入 “宁波 云 医 院 " 平 台 的 基层 医疗 机 构 共 100 家 ,签约 专科 医师 ,家庭 医师 226 名 , 首 期 

FE“ 宁波 云 医院 " 线 上 开设 高 血压 、 糖 尿 病 、 心 理 咨询 、 全 科 医 师 等 4 个 “ 云 诊室 ”"。 此 外 ,“ 云 
医院 "已 经 与 本 地 连锁 药店 等 第 三 方 机 构 实 现 互联 ,“ 云 医生 " 线 上 处 方 可 以 方便 地 流转 到 连 
锁 药 店 ,患者 可 以 根据 实际 情况 就 近 取 药 或 享受 配送 服务 。 可 见 ,这 个 云 医 院 线 上 是 一 家 虚 
拟 医 院 , 线 下 是 一 家 混合 所 有 制 医 院 , 线 上 、 线 下 既 能 实现 门诊 住院、 检查 、 体 检 的 预约 服 
务 , 又 能 实现 定制 的 健康 管理 ,咨询 ,干预 与 指导 ,对 特定 人 群 、 特 定 病 种 实现 规定 范围 内 的 
诊疗 。 云 医院 平台 将 与 电子 健康 档案 协作 平台 、 区 域 医疗 服务 平台 协同 服务 ,实现 民众 电子 
健康 档案 共享 调 阅 和 检验 、 检 查 远程 诊断 。 民 众 可 通过 网 上 支付 和 网 上 药店 , 足 不 出 户 就 能 
购买 到 高 品质 的 医疗 服务 。 


8.1.3 医疗 健康 大 数据 挑战 和 机 遇 


基于 大 数据 的 医疗 服务 模式 创新 ,有 赖 于 新 技术 对 海量 关联 性 数据 的 整合 分 析 ,发 现 独 
立 数据 系统 不 可 能 发 现 的 有 价值 的 信息 。 由 于 我 国医 疗 卫生 面临 资源 配置 低 效 的 问题 ,加 
之 互联 网 医疗 起 步 较 晚 ,医疗 卫生 数据 的 挖掘 分 析 面 临 着 诸多 的 问题 与 挑战 。 

1. 医疗 数据 整合 

医疗 领域 大 数据 覆盖 医院 区域 医 疗 中心 、 医 疗 保险 公司 ,药物 管理 分 析 单 位 、 医 疗 设备 
监控 中 心 等 ,数据 资源 分 散在 不 同 的 数据 池 中 ,包括 电子 病历 .结算 与 费用 数据 ,医疗 厂商 的 
医药 、 医 械 数据 ,医学 研究 的 学 术 数 据 , 区 域 卫生 信息 台 采 集 的 居民 健康 档案 ,政府 调查 的 人 
口 与 公共 卫生 数据 等 ,彼此 之 间 没 有 太 多 联系 。 同 时 ,医疗 数据 主要 产生 于 搜索 引擎 、 社 交 
网 络 、 通 话 记录 传感器 等 ,数据 格式 如 文本 、 日 志 、 图 像 、 视 频 、 机 器 数据 等 结构 化 、 半 结构 
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化 、 非 结构 化 数据 多 种 多 样 , 且 随 着 可 穿戴 .PET 等 先进 医疗 设备 的 广泛 应 用 , 非 结构 化 数 
据 快速 增长 , 占 总 量 的 70% 一 80%。 将 不 同 来 源 、 不 同类 型 .不 同 领域 的 数据 进行 转换 清 
洗 , 重 组 整合 ,消除 “信息 孤岛 "、 打 通 衔 接 通 道 、 建 立 协作 共享 机 制 激 活 休 眼 数据 的 潜在 价 
值 ,是 一 个 蝇 待 处 理 的 现实 问题 。 

2. 医疗 数据 存储 

大 数据 更 强调 数据 的 完整 性 ,大 量 而 非 精 确 、 非 结构 化 数据 进入 数据 样本 ,传统 的 数据 
库 难 以 实现 有 效 的 存储 和 加 工 。 一 是 容量 问题 ,“ 大 容量 ”通常 可 达到 PB 级 的 数据 规模 , 因 
此 ,海量 数据 存储 系统 一 定 要 有 相应 等 级 的 扩展 能 力 ; 除数 据 规模 巨大 之 外 ,还 拥有 庞大 的 
文件 数量 ,因此 ,如 何 管理 文件 系统 层 累 积 的 元 数据 也 是 一 个 难题 ; 二 是 延迟 问题 ,医疗 大 
数据 应 用 存在 实时 性 问题 , 需 对 数据 进行 实时 或 准 实时 的 处 理 、 秒 级 的 查询 需求 响应 ; 三 是 
数据 库 问 题 ,医疗 大 数据 也 是 非 结构 化 数据 ,传统 的 结构 化 数据 库 已 经 无 法 满足 存储 要 求 ， 
需 升 级 医院 数据 库 系 统 。 这 些 问 题 的 解决 必须 依托 云 计 算 的 分 布 式 处理 、 分 布 式 数 据 库 和 
云 存储 ,虚拟 化 技术 ,而 这 些 新 技术 的 采用 和 实现 是 一 个 复杂 ,长 期 的 系统 性 工程 ,难以 一 践 
而 就 。 

3. 医疗 数据 挖掘 

大 数据 技术 的 战略 意义 不 仅 在 于 掌握 庞大 的 数据 资源 ,而 且 要 对 这 些 数 据 做 出 快速 的 
专业 化 处 理 。 传 统 的 医疗 诊断 主要 以 检验 报告 为 手段 ,相当 于 数据 的 初次 或 直接 利用 ,是 一 
种 "平面 化 "的 分 析 。 数 据 挖掘 的 主要 方式 既 包 括 报告 诊断 ,也 包括 数据 建 模 和 潜在 知识 的 
挖掘 ,相当 于 数据 的 二 次 利用 或 间接 利用 ,是 一 种 “立体 式 ” 的 分 析 。 初 次 利用 包括 信息 调 阅 
共享 .卫生 服务 智能 提示 与 诊断 辅助 ,还 有 各 类 基于 信息 共享 的 业务 协同 服务 等 。 二 次 利用 
主要 是 根据 卫生 行政 与 管理 需求 实现 的 BI 统计、 绩效 分 析 等 。 医 疗 数据 挖掘 就 是 要 根据 不 
同 的 医疗 管理 目标 和 服务 需求 ,使 用 不 同 的 数据 分 析 技 术 和 工具 ,不 仅 要 为 传统 医疗 诊断 分 
析 搭 建 更 好 的 信息 平台 ,而 且 要 使 医疗 诊断 分 析 更 加 准确 、 权 威 、 及 时 和 高 效 。 怎 样 对 大 量 
非 结 构 化 数据 进行 有 效 的 数据 挖掘 也 是 医疗 的 难题 之 一 。 

4， 医疗 数据 检索 

大 数据 技术 是 通过 非常 快速 地 采集 ,发 现 和 分 析 , 从 大 量 多 类 别 的 数据 中 提取 价值 的 新 
一 代 IT 技术 与 架构 。 由 于 大 数据 的 5V 特性 ,对 大 数据 进行 检索 就 和 在 互联 网 上 用 百度 、 
Google 进行 检索 一 样 复杂 ,传统 的 检索 方式 为 关键 词 检索 ,但 这 种 检索 方式 往往 检索 出 大 
量 无 关 的 信息 ,无 法 满足 大 数据 的 检索 要 求 。 语 义 技术 作为 一 种 检索 准确 性 较 高 的 新 技术 
出 现在 人 们 面前 ,微软 已 经 将 其 用 于 互联 网 检索 并 建立 起 自己 的 检索 引擎 Bing ,将 这 类 新 
型 的 检索 技术 有 效 地 运用 于 医疗 大 数据 的 检索 也 是 一 项 艰巨 的 任务 。 


8.2 医疗 健康 大 数据 综述 


随 着 公共 卫生 领域 的 信息 化 建设 ,各 地 政府 和 公共 卫生 医疗 行业 都 将 医疗 行业 数据 处 
理 及 共享 作为 信息 化 建设 的 重点 之 一 ,而 随 着 国内 首 轮 公共 卫生 医疗 行业 信息 建设 浪潮 而 
来 的 是 庞大 的 医疗 信息 ,以 及 医疗 系统 间 的 信息 不 对 称 、 不 共享 。 同时 ,卫生 数据 分 散在 各 
医疗 机 构 的 信息 系统 中 ,与 中 心平 台数 据 要 求 存在 结构 不 同 \ 标 准 不 统一 的 情况 ,传统 的 由 
医疗 机 构 系统 开发 商 完成 数据 上 报 的 方式 存在 医疗 数据 处 理工 作 量 大 ,项目 开 发 进度 缓慢 、 
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数据 质量 低 、 医 疗 单位 协调 难 .数据 监管 难 等 问题 。 

在 这 样 的 医疗 行业 需求 背景 下 , 随 着 大 数据 处 理 思想 的 引入 ,上 述 难 题 将 得 到 有 效 解决 。 
通过 对 公共 卫生 大 数据 的 获取 和 分 析 , 并 将 数据 与 各 级 医疗 平台 进行 实时 共享 ,对 分 散 医疗 卫 
生机 构 的 数据 进行 快速 \ 有 效 、 可 靠 的 采集 ,实现 医疗 卫生 机 构 卫 生 数 据 的 有 效 接 人 ,已 成 为 医 
疗 大 数据 项 目 建设 的 重点 与 难点 ,将 对 公共 卫生 医疗 信息 化 建设 起 到 至 关 重 要 的 作用 。 

在 医疗 数据 处 理工 作 量 方面 ,医疗 大 数据 处 理 机 制 解决 协同 各 业务 系统 维护 人 员 根据 
平台 要 求 , 提 供 数据 查询 脚本 ,进行 数据 采集 、 转 换 程序 的 编写 与 调试 ,医院 端 大 量 的 业务 分 
析 工 作成 为 制约 数据 有 效 上 报 的 瓶颈 。 在 医疗 项 目 开 发 进度 方面 ,传统 的 平台 开发 商 需 要 
与 多 个 医疗 机 构 明 确 接口 内 容 、 传 输 协 议 、 联 调 测试 ,导致 平台 数据 共享 与 交换 部 分 的 开 
发 周期 长 .进度 慢 , 而 独立 的 医疗 大 数据 提供 商 独立 于 平台 开发 商 与 医疗 机 构 , 从 独立 第 
三 方 角度 来 汇聚 来 自 医 疗 机 构 的 大 数据 ,并 将 其 进行 统一 的 数据 质量 处 理 后 上 报 给 平 
台 , 从 而 在 保障 数据 质量 的 基础 上 ,加 快 了 项 目 建设 周期 。 另 一 方面 ,传统 的 医疗 数据 监 
管 需要 靠 人 工 方式 进行 汇报 ,无 法 对 问题 及 时 发 现 ` 及 时 解决 ,很 难 实现 对 医疗 系统 数据 
的 整体 有 效 监 管 ,在 大 数据 背景 下 ,其 海量 数据 的 监管 需 依 靠 自动 化 .智能 化 的 方式 进行 
统一 的 集中 监管 ,以 便于 及 时 发 现 . 定 位. 追溯、 跟踪 和 解决 问题 ,从 而 降低 数据 监管 难度 
和 成 本 。 


8.2.1 医疗 健康 大 数据 类 型 


通常 所 说 的 医疗 大 数据 指 的 就 是 医院 医疗 大 数据 ,这 是 最 主要 的 医疗 健康 大 数据 ,产生 
于 医院 常规 临床 诊治 ,科研 和 管理 过 程 ,包括 各 种 门 急诊 记录 、 住 院 记 录影 像 记录 、 实 验 室 
记录 、 用 药 记 录 、 手 术 记 录 、 随 访 记录 和 医保 数据 等 。 这 些 医 疗 数据 中 的 大 多 数 都 是 用 医学 
专业 方式 记录 下 来 的 ,以 临床 实践 自然 随机 形式 存在 ,是 最 原始 的 临床 记录 。 从 临床 管理 或 
研究 角度 看 ,这 些 数据 是 关于 病人 就 医 过 程 的 真实 记录 ,或 者 也 可 以 说 是 临床 医疗 行为 留存 
的 痕迹 ,每 一 个 数据 都 具有 价值 ,包括 记录 不 完善 或 错误 的 数据 ,都 可 能 隐藏 了 有 待 发 气 和 
利用 的 重要 医学 信息 。 如 图 8-1 所 示 为 医疗 健康 大 数据 类 型 图 。 
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图 8-1 医疗 健康 大 数据 类 型 图 
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8.2.2 临床 服务 数据 


临床 数据 主要 包括 综合 电子 健康 纵向 记录 ,如 诊断 ,问题 列表 ,现在 和 过 去 的 药物 ,结果 
测试 以 及 病人 各 自 所 在 的 治疗 单位 及 其 病人 所 接触 的 设施 等 。 它 们 成 为 临床 决策 支持 系统 
和 大 数据 分 析 系 统 的 基础 。 


8.2.3 公共 卫生 调查 和 监测 数据 


区 域 协 同 背景 下 的 大 数据 是 重要 的 医疗 健康 大 数据 之 一 ,也 是 未 来 医疗 健康 大 数据 的 
发 展 方向 。 一 方面 ,区 域 协同 通过 医疗 健康 服务 平台 汇集 整合 了 区 域内 很 多 家 医院 和 相关 
医疗 机 构 的 医疗 健康 数据 ,致使 数据 量 大 幅度 增加 。 另 一 方面 ,由 于 平台 数据 收集 事先 都 经 
过 充分 的 科学 论证 和 规划 ,所 以 会 比 单独 医院 的 数据 更 为 规范 。 

8.2.4 医学 研究 性 数据 

除了 上 述 原生 态 医疗 大 数据 以 外 , 另 有 一 些 医疗 健康 大 数据 来 自 于 专门 设计 的 基于 大 
量 人 群 的 医学 研究 或 疾病 监测 。 例 如 , 原 卫 生 部 近年 开展 的 脑 卒中 筛 查 与 防治 项 目 ,计划 在 
全 国 各 地 得 检 100 万 脑 卒中 高 危 人 群 ,随后 对 其 疾病 及 治疗 进行 长 期 追踪 。 另 一 项 近年 刚 
启动 的 重大 专项 研究 是 中 国 环境 与 遗传 因素 及 其 交互 作用 对 冠 心病 和 缺 血 性 脑 卒中 影响 的 
超大 型 队列 研究 ,包括 了 50 余 万 人 的 自然 人 群 ,评估 遗传 和 环境 危险 因素 及 其 复杂 的 交互 
作用 。 专 项 设计 的 大 数据 还 包括 各 种 全 国 性 抽样 调查 和 疾病 监测 数据 ,如 全 国营 养 和 健康 
调查 .出 生 缺 陷 监 测 研究 .传染 病 及 肿瘤 登记 报告 等 数据 。 


8.2.5 个 人 健康 数据 


基于 移动 物 联网 的 个 人 身体 体征 和 活动 的 自我 量化 数据 是 一 种 新 型 的 医疗 健康 大 数 
据 。 自 我 量化 数据 所 包含 的 血压 、 心 跳 , 血 糖 、 呼 吸 、 睡 眠 、 体 育 锻炼 等 信息 ,除了 有 利于 
帮助 人 们 及 时 了 解 自身 健康 状况 外 ,经 过 一 定时 期 累积 在 医学 上 会 变 得 很 有 用 , 既 有 助 
于 识别 疾病 病因 或 防 控 疾 病 , 也 有 助 于 个 性 化 临床 诊疗 ,从 而 塑造 一 种 新 的 医疗 或 健康 
管理 模式 。 

大 数据 的 另 一 个 资源 是 远程 病人 监护 。 远 程 病人 监控 ,不 仅 可 以 产生 针对 个 人 行为 的 
实时 数据 ,而 且 可 以 产生 针对 行为 模式 和 相关 治疗 的 实时 数据 。 产 生 的 数据 需要 能 够 处 理 
大 量 信息 系统 ,特别 是 在 需要 远程 传播 视觉 成 像 的 时 候 , 这 使 得 疾病 的 监测 变 得 更 加 容易 ， 
而 且 也 提供 了 分 析 领 域 的 业务 增长 机 会 。 

生物 信息 大 数据 是 一 类 比较 特殊 的 医疗 健康 大 数据 。 这 类 数据 有 很 强 的 生物 专业 性 ， 
主要 是 关于 生物 标本 和 基因 测序 的 信息 。 虽 然 在 信息 内 容 表 达 方 式 上 ,生物 信息 大 数据 与 
上 述 所 有 大 数据 大 不 相同 .但 它 直接 来 源 于 人 体 生物 标本 .并且 关系 到 临床 的 个 性 化 诊疗 及 
精准 医疗 ,所 以 可 归于 医疗 健康 大 数据 一 类 。 基 因 测 序 又 称 DNA 测序 ,能 够 从 人 体 组 织 、 
细胞 、 血 液 或 唾液 中 测定 基因 全 序列 。 全 基因 组 测序 的 意义 在 于 能 揭示 一 个 人 的 生命 密码 。 
据 估计 ,人 类 基因 测序 一 次 ,产生 的 数据 量 就 可 高 达 100~~ 600GB 左右 。 目 前 ,每 年 全 球 产 
生 的 生物 数据 总 量 已 达 EB 级 ,使 得 生命 科学 已 经 成 为 大 数据 科学 。 
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8.3 ”医疗 健康 大 数据 总 体 架 构 
8.3.1 建设 原则 


医疗 健康 大 数据 建设 遵循 以 下 5 方面 的 原则 。 

1. 集中 存储 

降低 业务 系统 的 复杂 度 ,降低 故障 风险 ,降低 数据 丢失 风险 ,提高 管理 效率 。 

2. 分 层 存储 

针对 不 同业 务 系统 数据 的 特性 ,将 数据 分 布 在 SSD.SAS 和 SATA 磁盘 上 ,最 大 化 地 提 
高 系统 运行 效率 ,降低 建设 成 本 。 

根据 数据 访问 频 度 , 自动 调整 数据 存储 位 置 ,最 大 化 地 提升 系统 整体 性 能 ,智能 化 加 快 
医院 业务 流程 ,提升 医疗 IT 效率 。 

3. 统一 备份 

完整 的 每 日 数据 备份 ,有 助 于 在 灾难 发 生 时 ,提供 最 近 时 间 点 的 数据 备份 恢复 能 力 , 降 
低 数据 丢失 风险 。 

数据 远程 镜像 和 CDP( 持 续 数据 保护 ) 不 能 作为 备份 的 蔡 代 解决 方案 。 

4. 业务 连续 性 

医院 业务 系统 需要 7X24 小 时 不 间断 运行 ,一 旦 应 用 系统 服务 器 发 生 故 障 , 将 导致 整个 
医院 业务 系统 中 断 。 

服务 器 系统 集群 能 够 使 业务 系统 主机 在 发 生 故 障 时 ,将 业务 切换 到 备用 主机 系统 继续 
提供 服务 ,确保 医院 业务 系统 的 高 可 靠 性 运行 。 

容 灾 系 统 能 够 使 医院 信息 系统 在 主 运营 中 心 发 生 灾难 时 ,快速 地 在 容 灾 中 心 恢复 医院 
的 业务 系统 ,将 故障 恢复 时 间 降 到 最 短 。 

5. 虚拟 化 

虚拟 化 能 极 大 地 降低 医院 信息 中 心服 务 器 系统 的 结构 复杂 度 , 降 低 管理 难度 ,降低 运营 
成 本 。 

在 容 灾 中 心 建立 虚拟 化 服务 系统 .有 助 于 快速 恢复 业务 系统 ,缩短 系统 恢复 时 间 , 降 低 
容 灾 中 心 建设 成 本 。 

虚拟 化 系统 的 V-Motion( 虚 拟 机 自动 迁移 ) 功 能 能 够 提供 业务 系统 的 安全 运行 级 别 。 

利用 虚拟 化 技术 .能 够 帮助 医院 建立 双 活 数据 中 心 . 确 保 医院 业务 系统 实现 真正 的 无 中 
断 和 业务 系统 连续 性 。 


8.3.2 建设 目标 


县 级 医院 信息 化 建设 的 主要 建设 目标 如 下 。 

(1) 对 于 尚未 建立 医院 信息 系统 的 医院 ,争取 能 够 建立 覆 羔 全 院 的 、 以 经 济 核算 为 核心 
的 管理 信息 系统 。 项 目 实 施 后 ,将 使 医院 实现 初步 的 信息 化 ,能 够 规范 收费 , 算 清 账目 ,医院 
管理 水 平 得 到 明显 提升 。 
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(2) 对 于 已 经 建 有 管理 信息 系统 的 医院 ,支持 其 建设 向 临床 应 用 延伸 。 项 目 实施 后 ,将 
使 医院 的 医疗 业务 获 益 , 不 仅 有 助 于 就 医 流程 的 优化 ,提高 服务 效率 ,也 对 减少 医疗 差错 、 改 
善 医疗 质量 有 所 帮助 。 

(3) 对 于 少数 信息 化 建设 较 好 的 医院 ,重点 推动 电子 病历 系统 的 建设 、 各 信息 系统 的 集 
成 以 及 临床 路 径 的 应 用 。 项 目的 实施 将 进一步 规范 医生 的 诊疗 行为 ,不 仅 有 益 于 提高 医疗 
质量 ,更 为 未 来 实现 医疗 信息 的 区 域 共 享 、 降 低 百 姓 就 医 成 本 打下 基础 。 

数据 中 心 的 核心 功能 是 承担 数据 存储 的 任务 ,另外 还 要 为 大 数据 的 机 器 学 习 、 数 据 挖掘 
提供 平台 支持 。 针 对 当前 医院 数据 中 心 的 实际 需求 ,基于 Hadoop 的 医院 数据 中 心 系统 的 
设计 开发 主要 有 以 下 目标 。 

(1) 实现 数据 安全 可靠 的 存储 。 这 主要 由 Hadoop 本 身 特性 保证 ,在 开发 过 程 中 , 针 
对 医院 数据 中 心 实际 需求 ,对 Hadoop 做 出 个 性 化 改进 ,以 更 好 地 适应 医院 数据 存储 。 

(2) 与 现 有 数据 中 心 相 比 ,提供 更 快 的 数据 存储 速度 。 基 于 Hadoop 构建 的 数据 中 心 
采用 分 布 式 文件 系统 ,数据 读 写 并 行 执行 , 极 大 地 提高 了 数据 读 写 速度 ,提高 医生 工作 

(3) 数据 中 心 与 现 有 信息 系统 集成 方便 。 由 于 Hadoop 架构 的 各 个 组 件 提供 了 多 样 化 
的 编程 开发 接口 ,与 现 有 临床 信息 系统 的 集成 工作 易于 实现 ,可 以 实现 无 缝 集成 。 

(4) 数据 中 心 提供 机 器 学 习 平 台 。 基 于 Hadoop 框架 构建 的 数据 中 心 具 有 云 计算 的 能 
力 , 这 使 得 对 大 数据 的 挖掘 更 加 高 效 ,同时 ,分 布 式 文件 系统 提供 的 快速 文件 读 写 特 性 ,也 提 
高 了 数据 挖掘 的 效率 。 

(5) 使 数据 中 心 易 扩展 。 这 主要 分 为 两 方面 : 当 数据 中 心 存储 容量 不 足 时 ,可 通过 为 
每 一 个 节点 的 计算 机 添加 存储 容量 即 可 ; 当 数 据 中 心计 算 能 力 不 足 时 ,为 数据 中 心 直 接 添 
加 普通 计算 机 即 可 ,新 添加 计算 机 只 需要 简单 地 配置 工作 。 

(6) 与 现 有 数据 中 心 相 比 ,成 本 低 。 成 本 低 主要 体现 在 硬件 和 软件 两 方面 : 由 于 
Hadoop 整个 框架 是 开源 开发 ,其 框架 下 的 所 有 软件 均 免 费 ,节省 了 构建 数据 中 心 的 软件 成 
本 ; 另 一 方面 ,使 用 普通 廉价 PC 构建 数据 中 心 ,避免 了 在 大 型 服务 器 上 的 高 额 投 入 。 


8.3.3 医疗 健康 大 数据 业务 架构 


医疗 健康 大 数据 业务 架构 如 图 8-2 所 示 。 系 统 以 居民 个 人 健康 卡 为 核心 ,搭建 国家 级 
人 口 健康 信息 平台 、 省 级 人 口 健康 信息 平台 、 地 市 级 及 县 级 人 口 健 康信 息 平台 ,可 以 资源 共 
享 到 社区 医院 。 建 立 以 电子 病历 数据 、 电 子 健康 档案 数据 库 、 人 口 数据 库 等 为 基础 数据 库 的 
数据 中 心 ,为 医疗 健康 大 数据 分 析 作为 决策 依据 。 

通过 建立 、 健 全 医院 信息 系统 ,加 强 以 电子 病历 为 核心 的 医院 信息 平台 的 建设 ,可 以 实 
现 以 下 业务 。 

(1) 规范 医院 的 财务 管理 ,加 强 财务 核算 ,改善 医院 收 支 状况 。 

(2) 加 强 医疗 质量 过 程 管理 ,减少 医疗 差错 ,提高 医疗 质量 .保障 医疗 安全 ,增加 病人 的 
满意 度 。 

(3) 优化 整合 医院 的 业务 流程 ,提高 工作 效率 ; 标准 化 医院 的 业务 流程 ,提高 工作 
质量 。 
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图 8-2 ”医疗 健康 业务 架构 图 
(4) 加 强 各 类 业务 数据 的 采集 ,传递 .存储 和 使 用 管理 ,促进 医院 内 信息 共享 ,并 为 实现 
未 来 的 医疗 信息 的 区 域 共享 打下 基础 。 
8.3.4 医疗 健康 大 数据 技术 架构 


医疗 健康 大 数据 采用 分 布 式 数据 库 HBase 和 分 布 式 文件 系统 HDFS, 如 图 8-3 所 示 。 
省 级 数据 中 心 和 地 区 级 与 社区 卫生 信息 进行 数据 交换 。 





图 8-3 ”医疗 健康 技术 架构 图 
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8.3.5 医疗 健康 大 数据 网 络 架构 


医疗 健康 网 络 架构 如 图 8-4 所 示 ,以 省 级 医疗 健康 数据 中 心 为 核心 ,进行 资源 集中 , 基 
于 数据 中 心 , 构 建 3 种 基础 设施 能 力 ,包括 计算 、 存 储 以 及 网 络 的 能 力 , 面 向 三 级 医疗 机 构 提 
供 多 样 化 的 服务 。 
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图 8-4 医疗 健康 网 络 架 构图 


医疗 健康 数据 中 心 网 络 架 构 , 构 建 去 存储 、 云 计算 和 云 网 络 设备 组 成 的 云 资源 系统 为 医 
疗 健康 服务 系统 提供 云 计算 的 能 力 , 使 其 具有 强大 的 计算 能 力 与 共享 服务 能 力 。 其 中 , 云 交 
换 机 和 云 路 由 器 是 一 种 新 型 可 编程 、 可 虚拟 化 、 自 适应 和 智能 调度 与 资源 共享 构成 的 精简 架 
构 , 即 智能 交换 机 和 智能 路 由 器 ,可 以 支持 各 种 协议 ,实现 接 入 普 适 化 和 控制 智能 化 。 

网 络 架构 主要 特点 如 下 。 

(1) 多 层级 管理 ,多 集群 设置 : 管理 节点 与 业务 节点 分 离 ,支持 异 构 集群 并 存 ,管理 节 
点 本 身 支 持 分 布 式 ,使 得 管理 节点 性 能 超越 单 服 务 器 性 能 局 限 。 

(2) 超大 容量 集群 规模 : 1024 服务 器 /每 集群 ,同一 集群 内 所 有 VM 弹性 分 配 存储 空 
间 ,使 得 物理 服务 器 的 VM 迁移 及 HA 调度 可 在 更 大 尺度 内 进行 。 

(3) 百 TB 容量 无 阻塞 交换 网 : 非 组 合 的 基于 CLOS 模型 的 多 层级 联 式 交 换 架 构 , 支 持 
VM 间 , 以 及 VM 与 存储 间 的 无 组 合 、 无 丢 包 、 低 时 延 的 性 能 。 

(4) 基于 目录 服务 的 大 层 双 交 换 网 : 引入 网 络 目录 服务 ,实现 物理 与 逻辑 L2 地 址 的 解 
耦 ,突破 普通 L2 网 络 节点 规模 不 超过 4096 节点 的 限制 ,支持 大 层 双 网 络 内 所 有 VM 的 移 
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8.4 医疗 健康 数据 中 心 解决 方案 


在 医院 信息 系统 建设 过 程 中 ,HIS 和 了 PACS 的 医院 信息 系统 数字 化 是 两 大 重点 ,下 面 
就 对 这 两 方面 的 需求 分 别 进行 分 析 。 

随 着 医院 信息 化 的 不 断 深入 ,病人 对 医院 的 要 求 也 越 来 越 高 ,如 果 医 院 不 能 满足 病人 的 
合理 需求 ,在 一 定 程度 上 会 造成 医 患 纠 纷 等 。 因 此 ,对 医院 信息 系统 的 建设 也 提出 了 更 高 的 
要 求 ,通常 在 一 个 医院 信息 化 建设 过 程 中 ,数据 需求 量 最 大 的 是 PACS, 对 数据 安全 要 求 最 
高 的 是 医院 核心 系统 HIS。 目 前 ,PACS 已 经 成 为 现代 医学 放射 学 实践 的 基本 技术 和 基础 
设施 中 重要 的 一 部 分 ,在 临床 诊断 、 医 院 科研 等 方面 正 发 挥 着 极其 重要 的 作用 。 

当前 的 PACS 产品 支持 医学 图 像 的 全 数字 获取 转换、 解释 、 存 储 和 查阅 。PACS 的 发 
展 也 呈现 出 一 个 很 大 的 特点 : 医院 影像 设备 的 发 展 使 放射 科 图 像 数 据 激增 ,图 像 的 数据 量 
为 存储 容量 带 来 了 很 大 的 挑战 ,数据 需要 进行 分 级 存储 和 归档 ,同时 ,数据 需要 备份 容 灾 和 
异 构 存 储 环境 的 现状 也 愈加 突出 ,因此 PACS 需要 一 种 可 靠 . 灵 活 的 大 容量 存储 系统 来 满 
足 其 应 用 和 发 展 。 

存储 系统 的 稳定 性 直接 导致 了 HIS 的 业务 连续 性 , 当 存 储 系 统 发 生意 外 宕 机 时 ,整个 
医院 运行 将 面临 瘫痪 ,建设 统一 ,安全 、 高 可靠 ,分 层 的 存储 系统 对 医院 信息 系统 的 建设 是 至 
关 重 要 的 。 

医院 的 HIS 要 对 门诊 .收费 ,药房 管理 和 OA 等 系统 提供 服务 ,对 存储 空间 的 需求 并 不 
是 很 大 ,但 对 存储 系统 的 性 能 和 稳定 性 有 着 较 高 要 求 。 

PACS 对 患者 大 量 的 医疗 和 影像 数据 进行 采集 、 存 储 \ 传 输 和 处 理 。 一 个 中 等 规模 的 三 
甲 医院 年 平均 的 存储 数据 量 至 少 在 2TB 以 上 ,其 中 ,PACS 的 影像 数据 占据 了 95% 以 上 。 
这 样 大 数据 量 的 资料 存储 、 传 输 和 处 理 对 医院 的 网 络 平台 、 存 储 系统 都 提出 了 很 高 要 求 。 

医疗 行业 对 影像 的 要 求 非常 苛刻 ,HIS/PACS 对 存储 系统 自身 的 特点 和 要 求 ,主要 有 
以 下 几 方 面 的 特点 。 

(1) PACS 的 影像 图 像 主 要 是 多 媒体 文档 ,并 发 访问 量 小 ,根据 不 同 影像 科室 的 特点 ， 
有 的 文件 比较 大 ,例如 核磁 阵列 ,有 的 比较 小 ,例如 CT 等 。HIS 核心 通常 都 是 数据 库 , 例 如 
Oracle .DB2、SQL Server 等 。 

(2) 医疗 PACS 中 的 数据 保存 量 大 ,数据 量 增长 速度 快 ,由 于 病人 自身 的 情况 ,通常 在 
前 几 个 月 医院 会 频繁 调 阅 病人 的 医疗 影像 .后 期 很 少 调 阅 ,但 又 不 能 对 这 些 影像 进行 删除 ， 
因此 ,部 分 数据 将 作为 归档 数据 ,需要 安全 地 保存 和 随时 方便 地 调用 , 需 采 用 分 级 存储 策略 。 

(3) 随 着 医院 数据 量 的 激增 ,分 级 存储 设计 逐渐 发 展 为 在 线 、 近 线 、 离 线 的 三 级 存储 
架构 。 

(4) 数据 量 大 ,达到 海量 存储 。 为 了 提高 医院 对 病人 服务 的 满意 度 ,长 时 间 等 待 调 阅 图 
像 是 病人 无 法 忍耐 的 ,诊断 工作 站 和 浏览 工作 站 对 在 线 图 像 检 索 速 度 的 要 求 越 来 越 高 ,甚至 
达到 秒 级 。 

(5) 部 分 影像 资料 用 于 科研 和 教学 ,重要 性 高 ,需要 可 靠 有 效 的 容 灾 数据 保护 方案 。 

(6) PACS 和 HIS 数据 各 有 特点 ,特别 在 存储 容量 \ 访 问 响应 速度 \ 访 问 频率 、 存 储 可 扩 
展 性 等 方面 存在 差异 .需要 分 别 考虑 ,有 条 件 地 进行 分 类 存储 。 

(7) 随 着 医疗 行业 竞争 日 趋 激烈 ,PACS 的 建设 需要 投资 的 总 成 本 较 高 ,应 该 降低 总 拥 
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有 成 本 ,提高 投资 回报 率 。 
(8) PACS 的 设计 需要 具备 高 扩展 性 和 灵活 性 ,需要 支持 容量 增长 的 高 度 可 扩展 架构 
和 对 异 构 存储 环境 的 支持 ,以 实现 将 来 无 颖 扩容 ,而 且 不 增加 因 扩 容 带 来 的 管理 开销 。 
医疗 行业 有 着 最 为 复杂 的 应 用 系统 ,每 类 应 用 对 存储 系统 的 需求 千差万别 ,构建 的 存储 
系统 需要 涵盖 多 种 应 用 的 具体 需求 ,除了 需要 考虑 针对 结构 化 数据 (例如 HIS 的 数据 库 数 
据 ) 进 行 有 效 存储 及 保护 外 ,同时 还 需要 大 量 非 结构 化 数据 (例如 PACS 应 用 的 图 像 、. 影 像 
等 数据 ) 采 用 对 象 存储 方式 存放 ,并 且 需 要 进一步 保证 关键 数据 的 备份 和 容 灾 。 


8.4.1 医疗 数据 中 心 架构 设计 方案 


随 着 信息 化 建设 的 进一步 加 强 和 深入 ,医疗 卫生 行业 产生 的 数据 量 会 越 来 越 大 ,PB 级 
数据 存储 的 时 代 会 马上 到 来 。 这 么 大 的 海量 数据 如 何 管理 和 存储 ,如 何 能 够 最 快 地 查询 到 
需要 的 数据 ,如 何 进行 关键 数据 的 保护 ,如 何 进行 存储 优化 ,这 些 都 是 医疗 卫生 行业 当前 所 
面临 的 难题 。 存 储 可 以 帮助 医疗 卫生 行业 的 客户 有 效 解决 海量 数据 环境 下 面临 的 各 项 
挑战 。 

我 国 从事 存 储 业 务 的 厂商 较 多 ,存储 产品 种 类 比较 齐全 ,覆盖 面 广 , 在 海量 数据 处 理 
方面 具有 丰富 的 产品 ,基于 这 些 产 品 ,针对 对 医疗 行业 存储 需求 的 了 解 , 本章 介绍 了 医疗 
行业 存储 系统 解决 方案 ,用 于 满足 医疗 行业 HIS、PACS、 OA 系统 .ERM 系统 的 存储 
需求 。 

存储 解决 方案 集 先进 的 存储 虚拟 化 技术 、 通 用 的 硬件 平台 、 优 异 的 分 布 式 文件 系统 和 一 
体 化 的 备份 系统 于 一 体 , 既 能 为 HIS、OA 等 应 用 系统 的 数据 库 数 据 提供 高 可 靠 的 结构 化 数 
据 存 储 资源 池 , 又 能 为 PACS、ERM 等 应 用 系统 的 图 片 、 病 理 文档 的 存储 提供 非 结构 化 数据 
存储 资源 池 , 同 时 兼顾 重要 数据 的 备份 和 容 灾 。 

医疗 行业 存储 系统 逻辑 结构 示意 图 如 图 8-5 所 示 。 
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为 了 有 效 解决 医疗 行业 存储 方面 的 需求 ,从 3 个 方面 设计 存储 方案 如 下 。 

(1) 结构 化 数据 存储 平台 : 块 存储 资源 池 面 向 用 户 的 HIS、OA 系统 的 数据 库 应 用 提供 
块 设备 存储 空间 ,对 存储 系统 的 可 靠 性 和 性 能 要 求 比较 高 。 结 构 化 数据 存储 平台 基于 存储 
虚拟 化 技术 构建 ,采用 虚拟 化 控制 器 、FC 磁盘 阵列 和 FC 交换 机 组 成 一 个 全 宛 余 架构 的 结 
构 化 数据 存储 平台 ,该 平台 可 以 实现 关键 数据 的 双 写 ,保证 业务 平台 不 会 因为 任 一 存储 部 件 
或 是 存储 单元 出 现 故障 而 导致 应 用 中 断 , 具 有 较 高 的 可 靠 性 ,同时 存储 设备 之 间 的 切换 对 上 
层 应 用 透明 ,不 需要 人 为 干预 。 为 了 保证 存储 系统 的 高 性 能 ,底层 设备 采用 最 高 端的 FC 磁 
盘 阵 列 构建 。 

(2) 非 结 构 化 数据 存储 平台 : 非 结构 化 数据 存储 平台 为 用 户 的 PACS、ERM 等 系统 的 
视频 、 图 片 ,病历 共享 存储 应 用 提供 存储 空间 。 该 平台 基于 集群 存储 系统 分 布 式 存储 系统 构 
建 。 集 群 存储 系统 基于 业界 先进 的 集群 技术 、 多 副本 技术 、 并 行 读 写 技 术 和 Scale-out 扩展 
技术 构建 ,底层 硬件 全 部 采用 商业 标准 单元 ,为 用 户 提供 全 局 单一 命名 空间 。 具 有 容量 大 、 
性 能 高 .扩展 方便 、 高 可 靠 、 易 管理 以 及 构建 成 本 低 等 特点 ,解决 了 医疗 行业 的 海量 非 结 构 化 
数据 的 存储 问题 。 

(3) 一 体 化 的 备份 容 灾 平 台 : 为 了 降低 和 减少 人 为 误 操 作 以 及 自然 灾害 对 关键 数据 造 
成 的 影响 ,公司 为 医疗 用 户 提供 了 一 体 化 的 备份 容 灾 平 台 。 该 平台 基于 DBstor 集中 备份 系 
统 构建 ,该 系统 集 备 份 服务 器 、 备 份 软件 、 备 份 存储 空间 于 一 体 , 使 用 方便 ,管理 简单 。 支 持 
异 构 平 台 的 多 种 数据 库 系 统 以 及 文件 的 备份 ,支持 本 地 数据 备份 和 远程 数据 容 灾 , 为 医疗 行 
业 的 各 类 数据 库 、 重 要 文件 提供 高 性 能 的 保护 。 


8.4.2 集中 存储 解决 方案 


HIS 是 医疗 行业 最 为 关键 的 生产 系统 ,其 数据 类 型 主要 为 数据 库 数 据 。 该 系统 对 数据 
的 可 靠 性 要 求 很 高 .需要 存储 系统 满足 7X24 小 时 高 可 靠 运行 的 业务 连续 性 要 求 ,并 且 , 随 
着 就 诊 人 数 的 增长 ,需要 保证 存储 系统 的 性 能 和 容量 可 以 满足 业务 发 展 的 需要 ,同时 ,为 了 
避免 因数 据 丢 失 引 起 的 医疗 纠纷 ,需要 保证 数据 的 安全 性 和 可 恢复 性 。 

针对 HIS 的 应 用 特点 ,我们 认为 HIS 存储 体系 架构 应 具备 以 下 特点 。 

(1) 采用 高 可 靠 的 存储 高 可 用 体系 架构 ,存储 网 络 .存储 设备 均 无 单一 故障 点 ; 

(2) 采用 高 CPU 处 理 能 力 、 高 缓存 性 能 、 高 可 靠 性 、 高 稳定 性 的 政府 单位 级 存储 系统 ; 

(3) 采用 数据 备份 技术 进行 数据 保护 。 

针对 医院 HIS 的 应 用 特点 和 数据 结构 ,基于 存储 虚拟 化 技术 的 存储 高 可 用 存储 架构 能 
够 为 其 提供 高 可 靠 的 存储 服务 。 存 储 高 可 用 系统 采用 数据 双 写 技术 ,确保 同一 份 数据 在 两 
套 存储 设备 上 各 存 一 份 ,解决 了 长 期 困扰 用 户 的 存储 设备 单一 故障 点 问题 。 

底层 存储 设备 选用 高 性 能 、 高 可 靠 企业 级 DS800-G20 FC 盘 阵 ,该 系统 采用 新 一 代 高 性 
能 Xeon 处 理 器 与 最 新 的 8Gb FC、6Gb SAS 接口 技术 ,满足 用 户 业 务 系统 的 性 能 需要 ,同时 
采用 创新 的 ACP(Automatic Cache Speed) 技 术 , 通 过 智能 分 析 算 法 ,可 透明 移动 热点 数据 
至 高 速 存储 空间 (SSD) ,可 以 显著 提升 HIS 应 用 系统 数据 库 的 性 能 。 

同时 ,为 了 进一步 保证 数据 的 安全 性 ,本 方案 采用 数据 备份 技术 对 关键 数据 进行 备份 和 
容 灾 保 护 ( 详 见 容 灾 备份 系统 内 容 ) 。 
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1. 高 可 用 存储 方案 介绍 

随 着 服务 器 高 可 用 、 网 络 高 可 用 技术 的 发 展 越 来 越 成 熟 .存储 系统 成 为 应 用 系统 的 单一 
故障 点 ,虽然 可 以 采用 数据 备份 .磁盘 阵列 卷 拷贝 技术 增加 系统 的 可 靠 性 ,但 是 数据 备份 只 
能 解决 数据 的 逻辑 错误 ,解决 不 了 磁盘 阵列 的 硬件 故障 , 卷 拷贝 技术 虽然 可 以 解决 硬件 故 
障 , 但 是 该 方案 要 求 两 套 存 储 系统 必须 是 同一 厂商 同一 系列 的 具有 卷 拷 贝 功能 的 高 端 磁盘 
阵列 ,成 本 高 ,并 且 不 能 实现 自动 切换 。 

采用 存储 虚拟 化 控制 器 ,上 述 问 题 得 到 更 优化 的 解决 。 


2. 方案 拓扑 结构 
如 图 8-6 所 示 ,结构 化 数据 存储 平台 由 两 台 
储 虚 拟 化 控制 器 、 主 磁盘 阵列 备份 磁盘 阵列 ,以 : HS 应 用 服务 中信 和 


及 元 余 FC SAN 网 络 所 组 成 。 两 台 存储 虚拟 化 控 
制 器 之 间 通 过 光纤 (FC) 作 为 数据 同步 的 心跳 线 。 
两 台 存储 虚拟 化 控制 器 分 别 通过 光纤 接 入 到 两 套 
元 余 的 FC SAN 网 络 中 ,从 而 实现 对 主 、 备 磁盘 阵 
列 物理 存储 空间 的 接管 ,并 为 HIS 高 可 用 应 用 服 
务 器 集群 提供 虚拟 的 VDisk 存储 空间 。 

如 图 8-7 所 示 , 每 当 应 用 主机 向 VDisk 中 写 入 
数据 时 ,两 台 存 储 虚拟 化 控制 器 之 间 通 过 光纤 ,在 
两 台 设 备 之 间 进 行 同步 镜像 抄写 。 只 有 当 数 据 成 ” 图 8-6 结构 化 数据 存储 平台 拓扑 架构 
功 被 写 人 两 台 存储 虚拟 化 控制 器 之 后 , 才 会 返回 
SCSI ACK 信和 号 ,通知 主机 操作 成 功 。 因 此 ,所 有 写 入 的 数据 都 实时 地 保存 在 了 两 个 存储 虚 
拟 化 控制 器 中 ,实现 了 数据 在 线 热 备 保护 。 主 、 备 存储 虚拟 化 控制 器 选择 在 一 个 比较 适合 的 
时 间 , 把 保存 在 控制 器 中 的 数据 写 入 所 对 应 的 主 、 备 磁盘 阵列 中 。 







存储 虚拟 化 控制 器 
DS800 磁 盘 阵 列 











图 8-7 数据 同步 镜像 


如 图 8-8 所 示 , 当主 存 储 设备 发 生 故 障 时 ( 断 电 、 端 口 故障 、 链 路 中 断 等 ) ,安装 前 端 应 用 
服务 器 中 的 多 路 径 (MPIO) 软 件 将 自动 进行 存储 路 径 切 换 (Auto Fail-Over) ,实时 地 把 存储 
路 径 指向 备份 存储 设备 上 。 在 此 期 间 , 应 用 服务 器 上 的 业务 完全 不 会 受到 中 断 .保证 了 出 现 
存储 硬件 故障 情况 下 的 应 用 业务 连续 性 。 

当主 存储 设备 故障 修复 之 后 .MPIO 将 自动 把 存储 路 径 回 切 (Auto Fail-Back) 到 主 存储 
设备 上 ,同时 ,主机 所 在 备份 存储 系统 所 做 的 数据 变更 ,也 会 根据 IO Update log ,自动 同步 
到 主 存储 设备 中 ,此 过 程 无 须 人 工 干 预 . 并 且 对 应 用 主机 的 业务 而 言 也 是 透明 的 。 
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存储 虚拟 化 控制 器 
备份 存储 系统 


| 同 机 房 机 柜 2 同 机 房 机 柜 B/ 
| A 或 B 栋 机 房 


A/A 栋 机 房 


图 8-8 故障 切换 工作 流程 


存储 虚拟 化 控制 器 支持 各 种 主流 应 用 主机 集群 软件 ,包括 Windows MSCS, RedHat 
Cluster,Rose HA 等 ,存储 虚拟 化 控制 器 同时 支持 众多 厂商 的 磁盘 阵列 产品 。 通 过 应 用 主 
机 高 可 用 与 存储 设备 高 可 用 的 结合 ,可 以 形成 完整 的 业务 连续 性 保护 方案 。 

为 了 尽 可 能 保证 应 用 系统 的 可 靠 性 ,建议 用 户 为 该 HIS 高 可 用 系统 配置 两 个 机 柜 和 两 
个 UPS。 一 个 机 柜 内 放置 主 存储 虚拟 化 控制 器 、 主 磁盘 阵列 ,一 台 FC 交换 机 ,并 放置 一 台 
UPS 为 这 些 设备 提供 电源 保护 ; 另外 一 个 机 柜 放 置 备份 虚拟 化 控制 器 备份 磁盘 阵列 、 一 台 
FC 交换 机 ,也 放置 一 台 UPS 为 这 些 设 备 提供 电源 保护 。 这 两 个 机 柜 可 以 放置 在 同一 机 房 
中 ,也 可 以 放置 在 同一 建筑 的 不 同 机 房 中 。 

3. 方案 优势 

HIS 存储 高 可 用 解决 方案 基于 存储 虚拟 化 技术 ,具有 如 下 特色 和 优势 。 

(1) 该 方案 基于 存储 虚拟 化 技术 实现 ,主要 用 于 解决 磁盘 阵列 单一 系统 故障 问题 。 

(2) 该 方案 基于 存储 虚拟 化 控制 器 的 卷 镜像 功能 实现 ,具有 硬件 无 关 性 ,因此 源 端 和 容 
灾 端 磁盘 阵列 可 以 采用 不 同型 号 的 磁盘 阵列 ,并 且 磁 盘 阵列 不 要 求 具有 快照 和 远程 卷 镜像 
高 级 功能 ,可 以 利用 用 户 原 有 存储 设备 ,最 大 程度 地 节省 用 户 的 投资 成 本 。 

(3) 与 应 用 无 关 , 支 持 所 有 类 型 的 数据 同步 ,包括 文件 数据 数据 库 数据 、 裸 设备 ,应 用 
配置 文件 、 应 用 程序 、 库 函数 等 。 

(4) 支持 同步 和 异步 两 种 数据 复制 方式 。 同 步 方 式 用 于 本 地 或 同城 数据 容 灾 方案 ,可 
以 很 好 地 保证 数据 的 一 致 性 ; 异步 方式 用 于 远程 数据 容 灾 方 案 , 受 数据 复制 线路 影响 ,数据 
延迟 大 ,不 能 保证 数据 的 完全 一 致 性 。 

(5) 为 确保 不 存在 任何 单 点 故障 ,该 方式 会 将 两 份 镜像 数据 保存 于 不 同 的 物理 存储 中 ， 
当 其 中 源 端 存储 设备 发 生 故 障 时 .应 用 服务 器 通过 多 路 径 存储 技术 ,实时 地 将 数据 存储 路 径 
无 颖 地 切换 到 备份 端 存储 设备 上 。 切 换 过 程 无 顷 人 工 干预 ,并 且 应 用 不 会 中 断 ,而 未 来 在 故 
障 修复 后 ,存储 虚拟 化 控制 器 会 自动 地 将 两 份 数 据 进行 同步 。 

(6) 故障 切换 时 间 极 短 , 单 位 为 秒 级 。 
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8.4.3 PACS 数据 存储 方案 


PACS 是 医院 信息 系统 重要 的 组 成 部 分 ,伴随 着 医院 规模 的 不 断 扩大 ,PACS 的 影像 广 
件数 量 增长 迅速 ,容量 越 来 越 大 , 且 PACS 的 数据 通常 会 保存 长 达 15 年 甚至 更 长 时 间 , 其 中 
有 人 少 部 分 的 数据 需要 经 常 使 用 , 绝 大 部 分 的 数据 属于 历史 数据 ,一 般 情况 下 这 些 历史 影响 数 
据 很 少 被 调用 甚至 在 病 患 痊愈 后 再 也 不 会 被 调用 。 这 就 造成 在 PACS 中 存在 海量 的 历史 
静态 数据 。 面 对 高 达 几 百 TB 的 医学 影像 资料 ,常规 的 数据 存储 已 经 不 能 满足 PACS 对 数 
据 的 管理 要 求 ,这 就 对 PACS 的 影像 存储 和 管理 提出 了 新 的 要 求 。 

针对 PACS 的 应 用 特点 ,我 们 认为 PACS 存储 体系 架构 应 具备 以 下 特点 。 

(1) 采用 专用 的 并 行文 件 存储 系统 ,管理 日 益 庞大 的 海量 影像 文件 ; 

(2) 采用 在 线 - 近 线 的 分 级 存储 体系 架构 ; 

(3) 采用 集中 式 管理 系统 ; 

(4) 采用 数据 备份 技术 ,对 在 线 影像 数据 进行 保护 。 

针对 医院 PACS 的 应 用 特点 和 数据 结构 ,并 行 存储 系统 专 有 的 文件 系统 能 够 更 有 效 地 
管理 PACS 千 万 级 的 影像 文件 ,并 提供 高 速 的 数据 访问 能 力 ,提供 有 效 的 数据 共享 能 力 。 

PACS 应 用 服务 器 通过 IP 网 络 , 利 用 文件 协议 连接 到 并 行 存储 系统 ,实现 PACS 影像 
的 在 线 存储 。 

并 行 存储 系统 内 部 将 最 新 的 影像 数据 保存 在 高 速 SAS 磁盘 上 ,将 近期 不 频繁 使 用 的 历 
史 影像 保存 在 存储 系统 的 SATA 磁盘 上 ,并 确保 历史 数据 能 够 实时 地 被 业务 系统 访问 。 所 
有 的 数据 由 并 行 存储 系统 进行 集中 存储 和 管理 。 

同时 对 关键 的 在 线 影 像 数据 利用 数据 备份 技术 进行 数据 保护 。 

1. 并 行 存储 方案 介绍 

由 于 医院 PACS 中 大 量 医学 影像 文件 具有 容量 要 求 ,并 有 数据 保护 要 求 高 .连续 性 要 
求 高 和 需要 分 级 存储 的 特点 ,通常 采用 集群 并 行 存储 系统 实现 海量 医学 影像 的 集中 存储 和 
快速 文件 读 取 ,并 同时 利用 DBstor 实现 关键 数据 的 备份。 

集群 并 行 存储 系统 基于 开放 式 的 存储 架构 ,基层 采用 集群 并 行文 件 系统 ,将 多 台 物 理 存 
储 设备 (这 些 物理 设备 可 以 是 通用 的 存储 服务 器 ,也 可 以 是 磁盘 阵列 ) 的 存储 空间 虚拟 成 一 
个 具有 统一 访问 接口 和 管理 界面 的 存储 池 ( 也 叫 统一 命名 空间 ) 。 用 户 的 数据 按照 一 定 的 负 
载 均 衡 策略 ,条 带 化 地 分 布 到 后 台 的 多 套 存储 设备 上 ,从 而 能 够 实现 数据 的 并 行 读 写 以 获得 
更 高 的 并 发 访问 性 能 ,充分 利用 多 台 存储 设备 的 性 能 和 更 大 的 存储 容量 ,并 有 效 地 提高 存储 
空间 利用 率 ,同时 基于 集群 并 行文 件 系统 的 数据 迁移 功能 ,可 以 实现 实时 和 历史 影响 数据 的 
分 层 存储 ,并 且 所 有 的 存储 设备 可 以 实现 统一 的 管理 和 监控 ,大 大 减轻 了 管理 工作 负担 。 

集群 并 行 存储 系统 汇集 了 海量 数据 处 理 方面 的 核心 技术 ,从 架构 上 彻底 消除 了 传统 存 
储 系统 的 瓶颈 ,能 够 满足 高 带宽 和 高 并 发 的 海量 文件 存 取 的 需求 ,为 用 户 带 来 前 所 未 有 的 存 
储 性 能 体验 。 

2. 集群 存储 拓扑 结构 

PACS 集群 存储 拓扑 结构 如 图 8-9 所 示 。 

存储 系统 包括 管理 控制 器 MGR 索引 控制 器 oPara、 数 据 控制 器 oStor。 其 中 ,管理 控 
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制 器 通过 管理 网 络 监控 系统 的 各 个 模块 的 状态 ,提供 统一 的 控制 管理 界面 ,实现 存储 系统 的 
集中 部 署 和 监控 ,一 套 只 需要 配置 一 台 管理 控制 器 即 可 ; 索引 控制 器 用 于 管理 存储 系统 的 
所 有 索引 数据 和 命名 空间 ,对 外 提供 单一 的 全 局 映像 ,一 套 集群 存储 系统 一 般 至 少 需要 两 个 
索引 控制 器 ,两 个 索引 控制 器 以 Active-Active 高 可 靠 模式 运行 ,一 个 控制 器 出 现 问题 ,不 会 
影响 存储 系统 的 正常 运行 ,索引 控制 器 可 以 按 需 以 成 对 的 方式 进行 扩展 ; 数据 控制 器 用 于 
提供 文件 数据 IO 通道 和 实际 的 数据 存储 空间 ,并 实现 存 取 的 动作 ,数据 控制 器 根据 用 户 
实际 的 带宽 以 及 容量 需要 进行 配置 ,并 可 以 按 需 进行 动态 添加 ,1/O 通道 具有 千 兆 \ 万 兆 和 
IB 多 种 选择 ,并 且 集 群 存储 系统 支持 多 个 IO 通道 的 元 余 和 负载 均衡 ,为 了 保证 数据 的 高 
可 靠 性 ,数据 存储 采用 了 多 副本 的 数据 保护 技术 。 
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图 8-9 集群 存储 拓扑 结构 


oStor 可 同时 为 实时 影像 数据 提供 高 性 能 在 线 SAS 存储 空间 以 及 为 历史 影响 数据 提供 
大 容量 近 线 SATA 存储 空间 。 集 群 存储 系统 支持 基于 策略 的 数据 迁移 功能 ,在 线 数据 会 在 
规定 的 时 间 内 迁移 到 近 线 存储 空间 里 去 。 由 于 每 台 oStor 支持 灵活 混合 配置 SAS 在 线 存 
储 空间 和 SATA 近 线 存储 空间 ,数据 的 迁移 在 oStor 内 部 即 可 完成 ,大 大 减轻 了 数据 网 络 
的 负载 ,不 影响 前 端 应 用 存储 访问 的 性 能 。 

PACS、ERM 等 前 端的 应 用 服务 器 可 以 通过 两 种 方式 访问 集群 存储 系统 : 一 种 方式 是 
通过 应 用 系统 提供 的 专 有 Linux、Windows 客户 端 软件 ,这 种 方式 没有 额外 的 开销 ,性 能 较 
好 ; 另 一 种 方式 是 通过 集群 存储 系统 NAS 模块 提供 的 通用 NFS、CIFS 协议 ,这 种 方式 支持 
的 操作 类 型 更 为 丰富 ,使 用 也 更 为 简单 ,但 是 性 能 与 第 一 种 方式 相 比 有 所 降低 。 

3. 方案 优势 

集群 存储 系统 采用 了 代表 存储 技术 、 网 络 通信 技术 以 及 数据 管理 技术 发 展 方向 的 并 行 
体系 架构 ,是 一 款 面向 海量 非 结构 化 数据 处 理 . 拥 有 自主 知识 产权 的 高 端 存储 系统 。 

它 具 有 如 下 特色 和 优势 。 

(1) 单一 命名 存储 空间 ,集中 化 共享 虚拟 存储 池 。 

PACS 集群 存储 系统 可 以 智能 地 将 数据 存放 到 存储 系统 的 数据 节点 上 ,创建 一 个 集中 
化 的 共享 虚拟 存储 池 ,提供 全 局 单一 的 命名 空间 。 目 前 业界 有 很 多 存储 系统 也 声明 支持 PB 
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级 的 单一 命名 空间 ,但 是 底层 无 一 不 是 通过 将 若干 卷 挂 载 在 同一 个 根 目录 下 来 形成 的 大 容 
量 统一 命名 空间 ,其 效率 和 出 现存 储 热点 时 的 性 能 ,将 会 大 大 低 于 将 上 PB 级 别 的 存储 空间 
置 于 同一 个 文件 系统 下 管理 的 统一 命名 空间 。 

可 以 带 来 如 下 好 处 : 提高 存储 空间 的 利用 率 ,高 达 90%; @ 简 化 海量 数据 管理 的 复 
杂 性 ,用 户 可 以 直接 对 虚拟 资源 池 进行 管理 和 控制 ,无须 考 虑 存储 设备 的 布局 方式 ; @ 超 越 
传统 存储 架构 容量 和 性 能 的 极限 。 

(2) 高 性 能 并 行 存储 系统 ,支持 并 发 I/O 读 写 ,提供 高 达 数 百 GB/s 的 聚合 带宽 。 

衡量 一 个 存储 架构 的 优 劣 ,无 外 乎 从 读 写 两 个 方面 来 看 ,集群 存储 系统 的 聚合 性 能 可 随 
着 数据 控制 器 节点 的 增加 而 增加 ,根据 实际 测试 结果 ,集群 存储 系统 数据 控制 器 节点 每 个 捅 
两 块 双 口 千 兆 以 太 网 卡 ,提供 4 个 数据 传输 通道 , 单 节点 可 以 提供 高 达 150MB/s 的 写 带宽 
和 360MB/s 的 读 带 宽 。 集 群 存储 系统 的 聚合 带宽 ,可 以 用 每 节点 带宽 乘 以 节点 数 来 计算 ， 
系统 性 能 可 实现 线性 增长 。 部 署 于 深圳 云 计 算 中 心 的 .系统 总 容量 16PB 的 集群 存储 系统 
可 提供 高 达 一 百 多 GB/s 的 聚合 带宽 。 

集群 并 行 存 储 系统 是 如 何 达到 超 高 性 能 的 呢 ? 通过 如 图 8-10 所 示 的 存储 系统 的 读 写 
机 制 可 以 来 分 析 说 明 。 
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图 8-10 集群 存储 读 写 机 制 


从 客户 端 发 起 读 写 请 求 ,通过 核心 交换 机 ,向 集群 存储 系统 发 起 读 写 请 求 。 以 两 个 索引 
控制 器 和 8 个 数据 控制 器 为 例 ,索引 控制 器 首先 会 接收 此 次 读 写 请 求 ,并 通过 分 析 数 据 控制 
器 的 状态 来 确定 将 文件 如 何 分 割 以 及 写 到 哪些 数据 控制 器 上 ,然后 将 此 信息 反馈 给 客户 端 ， 
客户 端 通过 读 取 此 信息 ,利用 与 数据 控制 器 相连 的 数据 通道 并 发 地 将 文件 块 写 入 到 对 应 的 
节点 磁盘 上 。 反 过 来 看 读 一 个 文件 ,这 个 非常 好 理解 ,就 是 写 的 一 个 反 过 程 。 形 象 地 打 个 比 
方 ,传统 架构 数据 要 写 到 磁盘 上 或 从 磁盘 上 读 取 数 据 , 相 当 于 一 个 人 搬 8 个 箱子 ,而 并 行 存 
储 系统 是 8 个 人 搬 8 个 箱子 ,效率 和 速度 大 大 提高 ,这 种 并 行 架构 决定 了 系统 读 写 的 性 能 比 
一 般 的 存储 性 能 高 很 多 。 





SO 第 8 章 医疗 健康 大 数据 解决 方案 

(3) 存储 系统 自动 实现 数据 分 层 , 有 效 地 提升 读 写 性 能 、 降 低 构 建成 本 。 

集群 存储 系统 的 存储 介质 可 以 根据 实际 需要 选择 高 性 能 SSD、FC、SAS 硬盘 或 是 大 容 
量 高 性 价 比 SATA 硬盘 ,这 种 灵活 的 构建 方式 可 以 极为 方便 地 为 PACS 应 用 构建 高 性 能 存 
储 区 和 大 容量 低速 存储 区 ,高 性 能 存储 区 可 以 用 来 存储 用 户 最 新 的 一 些 访问 频繁 的 医学 影 
像素 材 及 病历 信息 ,低速 存储 区 用 来 存储 用 户 海量 的 历史 医学 数据 和 病历 信息 ,集群 存储 系 
统 支持 用 户 采 用 自动 或 是 手动 的 方式 实现 数据 在 这 两 个 区 的 迁移 ,如 图 8-11 所 示 。 

集群 存储 系统 这 种 灵活 的 分 层 存储 架构 和 数据 迁移 
对 数据 迁移 功能 的 支持 ,使 得 PACS、ERM 存储 
系统 不 需要 额外 的 数据 迁移 管理 系统 ,有 效 地 降 
低 了 存储 系统 的 构建 复杂 度 ,同时 提高 了 存储 系 
统 的 可 靠 性 以 及 查询 的 效率 ,在 最 大 程度 上 降低 
了 用 户 的 投资 成 本 以 及 使 用 和 管理 成 本 。 

(4) Scale-out 扩展 方式 ,性 能 和 容量 随 数据 图 8-11 数据 迁移 示意 图 
控制 器 数量 的 增加 而 线性 增长 。 

Scale-up 向 更 强大 的 CPU 内存 .通道 及 其 他 设备 扩展 ,而 Scale-out 则 是 通过 一 定 的 技 
术 将 一 个 个 独立 的 低 成 本 存储 节点 聚合 成 一 个 大 而 强 的 系统 。 对 于 用 户 来 讲 ,Scale-up 架 
构 的 存储 系统 其 设备 处 理 能 力 上 限 在 购买 时 已 经 确定 ,如 果 需 求 超过 上 限 , 只 能 重新 购买 更 
高 性 能 的 设备 ; 而 Scale-out 架构 的 系统 可 以 采用 搭 积 木 的 方式 ,通过 把 成 百 上 千 台 个 体 聚 
合 起 来 ,来 满足 不 断 增长 的 存储 容量 和 性 能 的 需求 。 

集群 存储 系统 就 是 一 款 基于 Scale-out 架构 的 高 端 存储 系统 。 

由 于 采用 了 Scale-out 横向 动态 扩展 技术 ,集群 存储 系统 可 以 为 用 户 提供 如 下 好 处 ， 
Q@ 打 破 了 传统 架构 的 扩展 限制 ,容量 可 扩展 到 EB 级 ,同时 可 以 保证 存储 系统 容量 和 性 能 的 
均衡 ; 四 避免 由 于 用 户 需 求 的 不 断 增 长 而 带 来 的 数据 迁移 和 应 用 中 断 的 问题 ,可 随 业务 需 
求 变化 而 动态 调整 资源 ,带宽 .处 理 能 力 和 存储 容量 都 可 以 实时 调整 和 扩展 ; @ 存 储 容 量 和 
聚合 带宽 随 着 数据 控制 器 的 增加 动态 线性 扩展 ; @ 所 有 扩容 操作 均 可 以 在 线 进行 ,无 须 中 
断 应 用 的 正常 执行 。 

(5) 集群 存储 系统 采用 多 副本 ,全 元 余 架 构 等 多 种 先进 的 数据 保护 机 制 确保 整套 存储 
系统 安全 可 靠 , 无 单 点 故障 ,提供 始终 如 一 的 高 可 用 性 。 

传统 的 NAS 和 SAN 存储 架构 都 存在 固有 的 单 点 故障 ,容易 形成 “数据 孤岛 ”一 旦 
NAS 头 或 者 磁盘 阵列 机 头 出 现 问题 .发 生 数据 不 可 用 的 危险 就 会 大 增 。 此 外 ,传统 的 
RAID 技术 ,包括 RAID4.RAID5 ,在 过 去 很 长 一 段 时 期 中 都 能 基本 满足 需求 ,提供 单个 磁 
盘 驱 动 器 发 生 故 障 时 的 数据 保护 。 但 是 现在 都 采用 大 容量 磁盘 驱动 器 ,发 生 第 二 块 . 第 三 块 
磁盘 故障 的 概率 大 增 。 面 密度 以 将 近 100% 的 复合 年 增长 率 在 不 断 加 大 .但 是 磁盘 驱动 器 
的 可 靠 性 和 性 能 并 没有 同步 提高 ,而 且 由 于 大 容量 磁盘 需要 更 长 的 RAID 重建 时 间 , 极 大 地 
增加 了 同时 发 生 几 个 磁盘 故障 的 可 能 性 ,数据 丢失 的 风险 不 可 小 视 。 再 者 ,传统 存储 系统 在 
发 现 和 处 理 故 障 硬 件 部 件 问 题 时 ,都 是 被 动 反应 ,而 非 预先 应 对 。 因 为 不 具备 有 预知 功能 的 
智能 软件 ,不 能 预 判 什么 时 候 会 发 生 故 障 .传统 存储 系统 将 用 户 的 数据 置 于 危险 之 中 。 而 集 
群 存储 系统 由 于 采用 了 全 宛 余 架构 .数据 多 副本 技术 以 及 高 效 数据 容错 重 构 技 术 和 故障 自 
动 恢 复 机 制 , 系 统 可 靠 性 和 数据 安全 性 非常 高 。 








低速 存储 池 。 ”高 速 存储 池 
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集群 存储 系统 可 以 提供 针对 系统 级 和 文件 数据 级 的 两 个 级 别 容错 。 

(1) 系统 级 容错 。 

数据 读 取 和 传输 过 程 中 , 当 某 一 个 模块 (可 以 是 索引 控制 器 数据 控制 器 或 者 交换 机 ) 发 
生 问 题 宕 掉 了 ,通过 系统 级 容错 ,元 余 模 块 可 以 接替 问题 模块 继续 工作 ,系统 仍 是 可 用 的 , 数 
据 仍 然 是 安全 的 、 完 整 的 ,用 户 端 感觉 不 到 任何 变化 。 整 套 系统 没有 单 点 故障 。 

(2) 文件 数据 级 容错 。 

集群 存储 系统 通过 条 带 化 技术 将 文件 分 块 存 储 在 多 个 数据 控制 器 上 ,其 中 每 一 个 分 块 
都 会 有 两 个 以 上 的 副本 存放 在 不 同 的 数据 控制 器 上 。 当 客户 端 读 取 的 数据 块 所 在 的 数据 控 
制 器 无 法 访问 时 ,依然 可 以 通过 访问 该 数据 块 副本 所 在 的 数据 控制 器 来 读 取 数 据 ,同时 系统 
将 会 自动 地 在 另 一 台 可 用 数据 控制 器 上 生成 此 数据 块 的 新 副本 。 这 种 容错 机 制 可 以 保证 只 
要 系统 中 剩余 空间 的 容量 大 于 损失 的 硬件 中 所 存储 数据 的 容量 ,系统 即 可 自动 进行 数据 恢 
复 。 同 时 ,由 于 每 一 个 存储 设备 上 的 数据 所 对 应 的 另 一 个 副本 是 分 布 在 其 他 所 有 的 存储 设 
备 上 的 ,存储 系统 数据 的 恢复 重 构 过 程 是 一 个 多 到 多 的 数据 复制 过 程 ,其 恢复 速度 大 大 高 于 
传统 的 存储 系统 ,保证 了 业务 的 连续 性 和 数据 的 安全 性 。 

集群 存储 系统 恢复 重 构 1TB 的 数据 只 需 半 个 小 时 左右 ,而 传统 的 基于 RAID 技术 的 存 
储 系统 ,即使 是 高 端 磁盘 阵列 , 重 构 1TB 的 数据 都 需要 十 几 个 小 时 。 

(1) 使 用 方式 丰富 。 

集群 存储 系统 为 用 户 提供 了 丰富 的 使 用 方式 。 集 群 存储 系统 为 追求 极致 性 能 的 客户 提 
供 私 有 Linux、Windows 接口 应 用 模式 ,该 应 用 模式 需要 在 客户 端 安装 提供 的 客户 端 软件 ， 
客户 端 软件 不 用 修改 和 编译 操作 系统 内 核 ,这 种 直接 访问 方式 没有 额外 的 开销 ,因此 具有 最 
好 的 性 能 。 

还 为 用 户 提供 间接 应 用 模式 ,在 该 应 用 模式 下 ,集群 NAS 模块 为 用 户 提供 NFS、CIFS 
标准 访问 协议 ,用 户 的 前 端 应 用 服务 器 通过 这 些 标准 访问 协议 访问 后 端 存储 系统 ,这 种 方式 
对 客户 端 没有 影响 ,使 用 最 简单 。 

(2) 管理 方便 。 

集群 存储 系统 集成 图 形 化 的 并 行 存储 管理 软件 系统 ,实现 存储 系统 的 统一 管理 和 监控 ， 
有 效 地 减轻 管理 工作 负担 。 

并 行 存储 管理 系统 是 专 为 系列 产品 开发 的 统一 监控 管理 平台 ,提供 系统 配置 .客户 端 管 
理性 能 优化 ,监控 告警 等 功能 ,直观 易 懂 的 中 文 图 形 化 界面 方便 用 户 实 时 监控 系统 的 软 硬 
件 状态 和 性 能 ,简化 安装 和 维护 过 程 ,提高 管理 效率 。 

集群 并 行 存储 管理 系统 主要 提供 以 下 功能 。 

(1) 管理 维护 : 提供 服务 启动 停止 和 节点 上 线 、 离 线 功 能 。 

(2) 文件 系统 管理 : 提供 文件 系统 查询 .文件 系统 创建 .文件 系统 删除 功能 。 

(3) 客户 端 管理 : 提供 客户 端 查询 .增加 删除 客户 端 以 及 修改 客户 端 功能 。 

(4) 安装 配置 : 为 管理 员 提供 系统 的 安装 件 载 .节点 扩容 删除 .系统 升级 数据 删除 、 数 
据 磁 盘 增 加 删除 .配置 修改 .配置 备份 恢复 功能 。 

(5) 监控 管理 : 提供 索引 控制 器 、 数 据 控制 器 ,以 及 并 行文 件 系 统 和 整个 存储 系统 的 
监控 。 
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8.4.4 容 灾 备 份 解决 方案 

1. 一 体 化 备份 容 灾 方案 介绍 

考虑 到 大 范围 内 灾难 或 故障 发 生 的 可 能 性 ,为 了 保障 数据 安全 ,利用 现 有 存储 设备 资源 
为 大 量 的 主流 平台 用 户 制定 完备 的 备份 和 容 灾 方案 ,构建 简单 .经 济 、 可 靠 的 备份 及 容 灾 系 
统 ,增强 系统 的 抗灾 能 力 , 最 大 限度 地 减少 损失 有 着 十 分 重要 的 意义 。 

备份 容 灾 系统 是 应 用 系统 的 补充 ,起 到 将 应 用 系统 中 的 数据 (比如 文件 系统 当中 的 文 
件 、 数 据 库 中 表 的 数据 ) 形 成 副本 ,最 终 存放 到 适当 存储 介质 (比如 磁盘 阵列 、 虚 拟 带 库 、 磁 带 
库 等 ) 当 中 ,在 应 用 系统 数据 损坏 或 者 应 用 系统 本 身 出 现 问题 需要 进行 重建 时 ,数据 的 副本 
为 重建 提供 完整 的 数据 来 源 ,从 而 为 应 用 系统 提供 最 后 一 道 安全 防线 。 

容 灾 备 份 存储 系统 ,通过 采用 两 级 方式 对 医疗 行业 的 关键 数据 进行 保护 。 数 据 在 本 地 
进行 备份 ,然后 远程 保留 一 份 ,实现 远程 容 灾 。 容 灾 备 份 存储 系统 通过 一 个 统一 的 管理 界 
面 ,对 所 有 关键 数据 统一 管理 ,实现 数据 保护 ,保证 用 户 的 业务 连续 性 。 

2. 容 灾 备 份 拓扑 结构 

备份 容 灾 系 统 拓扑 图 如 图 8-12 所 示 。 备 份 方案 首先 使 用 DBstor 设置 合适 的 备份 策略 
在 本 地 进行 备份 。 备 份 的 数据 类 型 可 以 是 HIS .OA 等 应 用 中 的 数据 库 ,也 可 以 是 PACS、 
ERM 等 应 用 中 的 图 片 , 病 历 档案 等 文件 。 备 份 网 络 可 以 通过 以 太 网络 , 有 条 件 的 用 户 也 可 
以 选择 具有 更 高 带宽 的 Lan-free 备份 方式 ,通过 FC SAN 网 络 把 数据 库 数据 直接 复制 到 
DBstor 的 备份 空间 里 。 本 地 局 域 网 的 带宽 较 大 ,可 适当 加 大 备份 的 频率 。 





U 
HIS 服 务 器 





结构 化 存储 池 备份 存储 池 





图 8-12 容 灾 备份 系统 拓扑 结构 


容 灾 方案 需要 在 远程 的 容 灾 中 心 配 置 一 台 容 灾 服务 器 和 一 个 磁盘 阵列 , 容 灾 服 务 器 上 
配置 DBstor 的 一 个 智能 客户 端 模块 ,利用 DBstor 的 Datacopy 功能 将 本 地 备份 的 数据 复制 
到 远程 智能 客户 端 所 管理 的 磁盘 阵列 里 。 备 份 网 络 需要 租用 运营 商 带宽 或 建设 专 网 ,并 要 
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根据 网 络 状况 和 复制 的 数据 量 设 置 合适 的 时 间 点 和 策略 。 

DBstor 自身 可 以 配置 高 达 48TB 的 VTL 或 是 带 重复 数据 删除 的 Smart Disk 备份 存储 
空间 ,如 果 备 份 空间 不 够 ,还 可 以 通过 挂 接 磁盘 阵列 的 方式 进行 备份 空间 的 扩展 。 

如 果 应 用 系统 出 现 人 为 误 操作 或 是 不 可 恢复 的 硬件 故障 所 导致 的 数据 错误 ,可 以 利用 
本 地 的 备份 数据 进行 恢复 ; 如 果 本 地 的 生产 数据 和 备份 数据 因为 自然 灾害 等 原因 全 部 出 现 
故障 ,可 以 利用 复制 到 容 灾 中 心 的 数据 恢复 到 用 户 的 备用 生产 系统 ,接管 客户 应 用 。 

3. 方案 优势 

方案 基于 数据 备份 技术 实现 ,主要 用 于 解决 高 端 容 灾 ( 实 时 数据 保护 ) 不 能 解决 的 问题 ， 
如 人 为 误 操 作恶 意 性 操作 等 。 这 类 操作 ,计算 机 系统 是 不 能 区 分 的 ,一 旦 执行 ,将 造成 数据 
中 心 、 灾 备 中 心 同时 修改 ; 对 于 数据 库 系 统 , 在 日 志方 式 下 ,可 以 通过 回 滚 方式 修改 ,对 于 文 
件 系 统 .操作 系统 等 其 他 配置 信息 是 不 能 回 滚 的 ,将 造成 毁灭 性 的 结果 。 因 此 建设 高 端 容 灾 
系统 的 前 提 , 是 一 定 要 做 好 本 地 系统 的 备份 ,这 是 容 灾 技 术 的 基本 要 求 。 

软 硬 一 体 的 备份 容 灾 方案 具有 如 下 特色 和 优势 。 

软件 、 硬 件 一 体 化 的 备份 容 灾 系 统 , 并 且 备 份 系统 同时 又 能 升级 为 容 灾 系 统 , 实 施 、 使 
用 、 维 护 简单 ,大 大 减轻 了 用 户 的 工作 负担 和 人 力 资 源 。 投 入 DBstor 独 有 集成 VTL 模块 ， 
不 需要 单独 VTL 设备 的 支撑 ,减少 了 用 户 的 投入 成 本 ,简化 了 管理 工作 。 同 时 由 于 DBstor 
可 以 虚拟 任意 多 的 驱动 器 ,可 以 实现 多 台数 据 库 同 时 备份 ,拥有 较 高 的 备份 频率 ,实现 RPO 
很 小 ; 支持 LAN-Free 备份 ,可 以 得 到 很 高 的 备份 和 恢复 速度 。DBstor 还 可 以 提供 性 价 比 
最 好 的 SmartDisk 备份 存储 介质 ,具备 重复 数据 删除 技术 ,凭借 其 强大 的 基于 软件 的 字 节 级 
可 变数 据 块 去 重 技术 ,可 以 减少 存储 成 本 。DBstor 具有 和 良好 的 兼容 性 ,支持 Windows、 
Linux、AIX、HP-Unix、VMware 等 各 种 异 构 客户 端 , 同 时 支持 Oracle、RAC(Linux 版 本 )、 
SQL Server、Sybase、MySQL 等 数据 库 的 备份 简单 .自动 化 ,无 需 脚 本 。 将 文件 备份 .数据 
库 备 份 . 操 作 系统 备份 集中 在 一 个 统一 的 管理 界面 下 ,对 各 种 介质 的 管理 .各 种 备份 设备 的 
管理 ,策略 的 管理 ,集中 在 一 个 统一 的 软件 中 ; 支持 数据 库 在 线 联机 备份 ,定制 策略 和 恢复 
过 程 纯 图 形 界面 ,不 需要 编辑 脚本 。 

部 分 点 采用 光纤 带 库 ,LAN-Free 备份 ,可 以 得 到 很 高 的 备份 和 恢复 速度 。 基 于 图 形 界 
面 的 集中 化 数据 备份 方式 ,中 文 操 作 界面 ,便于 用 户 使 用 维护。 尤其 是 ReportManager, 可 
以 通过 基于 颜色 的 图 形 界面 ,发现 备份 的 问题 ,便于 多 点 集中 监控 。 自 动 通知 功能 非常 方 
便 , 可 以 通过 邮件 发 送 报告 。 对 于 将 来 增加 的 数据 库 服 务 器 、 应 用 等 服务 器 ,只 需 在 新 增 相 
应 主机 上 安装 相关 的 客户 端 软件 .SmartClient 软件 (如 果 接 入 到 SAN 中 ) 、 相 应 数据 库 接口 
软件 包 ( 如 果 运 行 数据 库 ) 即 可 ,便于 备份 的 扩充 。 


8.5 医疗 健康 大 数据 分 析 


伴随 着 中 国医 疗 卫 生 服务 的 信息 化 进程 推进 ,将 产生 大 量 的 数据 。 这 些 数据 主要 来 源 
于 医疗 业务 活动 、 健 康 体检 、 公 共 卫 生 等 9 项 医疗 卫生 服务 。 数 据 内 容 包 括 来 自 医院 的 大 量 
电子 病历 .区 域 卫生 信息 平台 采集 的 居民 健康 档案 等 。 其 中 大 量 充斥 着 非 结构 化 / 半 结 构 化 
的 数据 ,包括 图 像 .Office 文档 ,以 及 XML 结构 文档 等 。 医 疗 大 数据 的 应 用 ,关键 是 整合 所 
有 可 能 得 到 的 这 些 数据 ,为 机 构 和 政策 制定 者 提供 找到 如 何 刺激 经 济 并 降低 共享 数据 技术 
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门槛 的 途径 。 
8.5.1 医疗 实体 对 象 建 模 分 析 


我 国医 疗 卫 生 行业 涉及 的 数据 实体 对 象 种 类 非常 多 ,包括 医疗 机 构 -科室 -医生 (门诊 、 
住院 )、 大 众 群 体 -患者 、 医 疗 管理 部 门 -卫生 局 - 疾 控 中 心 -医保 中 心 -发 展 改 革 委 员 会 -中 医药 
管理 局 医药 管理 部 门 -药品 监督 局 医药 研发 -医药 生产 -医药 经 营 -药品 (处 方药 .ODC 药 )、 
医疗 器 械 研 发 -医疗 器 械 生产 -医疗 器 械 经 营 - 医 疗 器 械 、 商 业 医 疗 保险 公司 、 体 检 中 心 -体检 
医生 、APP 服务 等 。 

如 图 8-13 所 示 是 数据 实体 对 象 建 模 示 意图 。 








图 8-13 数据 实体 对 象 建 模 图 


8.5.2 医疗 个 人 健康 档案 建 模 分 析 


2010 年 年 底 , 原 卫生 部 完成 了 “十 二 五 ”卫生 信息 化 建设 工程 规划 编制 工作 ,初步 确定 
了 我 国 卫生 信息 化 建设 路 线 图 ,简称 “3521-2 工程 ”, 即 建设 国家 级 、 省 级 和 地 市 级 3 级 卫生 
信息 平台 ,加 强 公共 卫生 、 医 疗 服务 .新 农 合 .基本 药物 制度 .综合 管理 等 5 项 业务 应 用 ,建设 
健康 档案 和 电子 病历 两 个 基础 数据 库 和 一 个 专用 网 络 建设 ,进行 医疗 卫生 信息 标准 化 体系 
和 安全 保障 体系 两 个 体系 建设 。 

2013 年 11 月 ,卫生 部 和 计划 生育 委员 会 合并 后 ,信息 化 建设 工程 规划 的 顶层 设计 规划 
又 调整 为 "4631-2 工程 ”, 其 中 ,“4” 代 表 4 级 卫生 信息 平台 ,分 别 是 : 国家 级 人 口 健康 管理 平 
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台 , 省 级 人 口 健康 信息 平台 、 地 市 级 人 口 健 康 区 域 信息 平台 及 区 县 级 人 口 健康 区 域 信息 平 
台 ;“6” 代 表 6 项 业务 应 用 ,分 别 是 : 公共 卫生 、 医 疗 服务 、 医 疗 保障 、 药 品 管理 ,计划 生育 \ 综 

理 ;“3” 代 表 3 个 基础 数据 库 ,分 别 是 : 电子 健康 档案 数据 库 、 电 子 病历 数据 库 和 全 员 人 
口 个 案 数 据 库 ;“1” 代 表 一 个 融合 网 络 , 即 人 口 健康 统一 网 络 ; 最 后 一 个 “2” 是 人 口 健 康信 
息 标 准 体系 和 信息 安全 防护 体系 。 依 托 中 西医 协同 公共 卫生 信息 系统 、 基 层 医 疗 卫 生 管 理 
信息 系统 、 医 疗 健康 公共 服务 系统 打造 全 方位 、 立 体 化 的 国家 卫生 计生 资源 体系 。 卫 生 和 计 
划 生 育 委员 会 规划 的 三 大 基础 数据 库 相 互 关 系 和 包括 的 主要 数据 如 图 8-14 所 示 。 




















. 病历 概要 : 包括 患者 基本 信息 等 4 项 内 容 - 

. 门 ( 急 ) 诊 诊疗 记录 : 包括 门 ( 急 ) 诊 病 历 、 
处 方 等 6 项 内 容 。 

. 住院 诊疗 记录 : 包括 住院 病案 首页 、 住 院 志 等 
9 项 内 容 。 

. 健康 体检 记录 : 一 般 常 规 健康 体检 记录 

. 转 诊 ( 院 ) 记录 : 忠 者 转 诊 的 主要 工作 记录 。 

. 法 定 医学 证 明 及 报告 : 包括 出 生 医学 证 明 等 ， 

. 医疗 机 构 信息 : 医疗 机 构 法 人 信息 。 


电子 病历 数据 库 
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w 





aap 












1. 个 人 基本 信息 : 包括 姓名 、 性别、 照片、 英文 名 
曾 用 名 、 身 份 证 号 码 、 年 龄 、 证 件 类 型 、 证 件 号 码 、 夭 
贯 、 国 精 、 户 稍 类 型 、 户 籍 地 址 、 政 治 面 狐 、 健 康 状况 、 
婚 奸 状况、 宗教 信仰 ， 兵 役 状况 、 文 化 程度 、 专 业 , 学 

态 、 工 作 单 位 、 工 作 单位 通讯 地 址 、 
社保 号 - 民政 丘 助 对象 类 型 、 联 系 电话 、 手机 号 码 电 

于 邮件 、 现 居住 地 址 、 居 住 关 型 、 死亡 标 识 信息 等 。 

个 人 扩展 信息 : 包括 工作 、 教育 、 家 庭 、 住房 、 

社保 、 公积金 计划 生育、 卫生 健康 、 犯 罪 记录 、 


死亡 信息 等 
全 员 人 口 个 案 数据 库 





i 息 : 包括 人 口 学 信息 、 社 会 经 济 
息 、 社会 保障 信息 、 基 本 健康 








上 务 记录 : 包括 儿童 保健 信息 、 妇 
女 保健 信息 、 疾病 预防 信息 、 疾病 管理 : 高 血压 、 
糙 尿 病 、 肿 瘤 、 重 症 精 神 疾病 等 病例 管理 信息 

老年 人 健康 管理 信息 、 医 疗 服务 信息 等 。 











电子 健康 档案 数据 库 


图 8-14 医疗 健康 基础 数据 库 图 


电子 健康 档案 的 数据 架构 是 以 人 的 健康 为 中 心 , 以 生命 阶段 ,健康 和 疾病 问题 ,卫生 服 
务 活动 (或 干预 措施 ) 作 为 3 个 纬度 构建 的 一 个 逻辑 架构 ,用 于 全 面 、 有 效 、 多 视角 地 描述 健 
康 档案 的 组 成 结构 以 及 复杂 信息 间 的 内 在 联系 。 通 过 一 定 的 时 序 性 .层次 性 和 逻辑 性 ,将 人 
一 生 中 面临 的 健康 和 疾病 问题 .针对 性 的 卫生 服务 活动 (或 干预 措施 ) 以 及 所 记录 的 相关 信 
息 有 机 地 关联 起 来 ,并 对 所 记录 的 海量 信息 进行 科学 分 类 和 抽象 描述 ,使 之 系统 化 、 条 理化 

结构 化 。 

个 人 健康 档案 的 三 维 概念 模型 ,可 以 清晰 地 反映 出 每 个 个 人 不 同 生命 阶段 .主要 疾病 和 
健康 问题 ,主要 卫生 服务 活动 三 者 之 间 的 相互 联系 。 同 时 ,坐标 轴 上 的 三 维 坐标 连 线 交叉 所 
圈定 的 空间 位 置 ( 域 ) ,表示 了 人 在 特定 生命 时 期 、 因 特定 健康 问题 而 发 生 的 特定 卫生 服务 活 
动 所 需 记 录 的 特定 记录 项 集 。 由 于 三 维 空间 中 的 任意 一 个 空间 位 置 都 对 应 着 某 个 特定 的 健 
康 记录 ,从 而 构成 了 一 个 完整 .立体 的 健康 记录 ,这 些 健康 记录 全 面 地 反映 了 个 人 健康 档案 
内 容 的 全 貌 , 如 图 8-15 所 示 。 
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图 8-15 个 人 健康 档案 立体 模型 图 


1. 第 一 维 (X 轴 ): 生命 周期 各 个 阶段 

按照 不 同 生理 年 龄 可 将 人 的 整个 生命 进程 划分 为 连续 的 若干 生命 阶段 ,例如 : 婴儿 期 
(0 一 1 岁 ) .幼儿 期 (1 一 3 岁 ) ,学龄 前 期 (3 一 6 岁 ) .学 龄 期 (6 一 12 岁 ) .青春 期 (12 一 20 岁 )、 
青年 期 (21 一 45 岁 ) .中 年 期 (46 一 60 岁 ) ,老年 期 (60 岁 以 上 ) 等 8 个 生命 阶段 。 也 可 以 根据 
基层 实际 工作 的 需要 ,将 人 和 群 划分 为 : 儿童 .青少年 .育龄 妇女 .中 年 和 老年 人 。 

2. 第 二 维 (Y 轴 ) : 健康 和 疾病 问题 

如 图 8-16 所 示 ,每 一 个 人 在 不 同 生 命 阶 段 所 面临 的 健康 和 疾病 问题 不 尽 相 同 。 确 定 不 
同 生命 阶段 的 主要 健康 和 疾病 问题 及 其 优先 领域 ,是 客观 反映 居民 卫生 服务 需求 .进行 健康 
管理 的 重要 环节 。 

3. 第 三 维 (Z 轴 ): 卫生 服务 活动 (或 干预 措施 ) 

针对 特定 的 健康 和 疾病 问题 ,医疗 卫生 机 构 开 展 一 系列 预防 医疗、 保健 康复、 健康 教 
育 等 卫生 服务 活动 (或 干预 措施 ) ,这 些 活动 反映 了 居民 健康 需求 的 满足 程度 和 卫生 服务 利 
用 情况 。 


8.5.3 相关 数据 特征 对 比分 析 


从 医药 医疗 健康 大 数据 分 析 应 用 角度 ,本 平台 需要 一 个 尽 可 能 全 和 细 的 数据 集合 ,所 以 
理想 状态 是 结合 以 上 两 部 分 数据 内 容 形 成 的 超 集 集 合 , 甚 至 包括 一 些 非 医疗 健康 数据 ,如 考 
察 研究 某 种 药 对 某 种 疾病 的 医疗 效果 时 ,如 果 能 获得 当地 的 气象 天 气 信息 ,可 能 分 析出 的 结 
果 将 明显 不 同 。 另 外 可 以 看 出 目前 所 给 数据 都 是 结构 化 数据 .如果 从 大 数据 分 析 应 用 角度 ， 
理想 的 数据 还 应 该 包括 图 像 . 图 形 、 文 本 等 半 结 构 和 非 结构 数据 ,以 及 非 关 系数 据 ( 多 维 数 
据 ), 才 能 构成 满足 医药 医疗 健康 大 数据 分 析 应 用 的 需求 。 

2000 年 以 来 ,我 国 的 医疗 数据 的 生成 和 采集 主要 局 限于 各 大 医院 。 近 几 年 , 随 着 社区 
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图 8-16 个 人 健康 档案 (EHR) 健 康 与 疾病 管理 


系统 、 新 农 合 系统 、 村 卫生 室 系统 等 基层 医疗 卫生 信息 系统 逐步 上 线 , 医 疗 卫 生 数 据 源 头 也 
越 来 越 多 ,数据 量 越 来 越 大 。 从 卫生 服务 的 类 型 看 ,区 域 卫生 信息 的 类 型 主要 有 : 医疗 服务 
类 ,公共 卫生 服务 类 、 社 区 卫生 服务 类 、 卫 生 业 务 类 、 卫 生 管 理 服务 类 数据 。 根 据 估 算 , 中 国 
一 个 中 等 城市 (一 千 万 人 口 规模 )50 年 所 积累 的 医疗 卫生 数据 量 就 会 达到 10PB 级 。 随 着 各 
地 区 域 卫生 信息 平台 的 建设 ,存储 于 各 医疗 卫生 机 构 的 数据 将 逐步 通过 各 种 方式 实现 整合 
与 共享 。 

由 于 医疗 数据 是 多 种 数据 源 数 据 的 汇总 ,数据 之 间 的 关系 非常 复杂 ,如 图 8-17 所 示 。 
以 患者 为 中 心 的 服务 需要 把 一 个 患者 的 全 周期 数据 按照 时 间 轴 排列 ,并 分 析 诊 断 、 用 药 和 患 
者 生命 体征 、 检 验 检 测 值 之 间 的 关联 ; 以 医生 为 中 心 的 服务 又 需要 把 与 医生 相关 的 患者 数 
据 挑 拣 出 来 ,并 进行 分 类 ; 以 科室 为 中 心 的 服务 可 能 需要 既 从 科室 所 属 医生 的 角度 ,又 要 从 
在 该 科室 就 诊 患者 的 角度 进行 分 析 ; 针对 社区 的 服务 可 能 需要 统计 整个 社区 居民 某 项 指标 
(比如 血压 、 血 糖 ) 的 达标 率 。 医 疗 数据 的 多 维度 、 多 粒度 为 各 种 信息 服务 的 多 角度 、 多 层次 
分 析 提 供 了 可 能 ,但 同时 也 为 大 数据 分 析 带 来 了 挑战 。 因 为 不 可 能 为 每 一 种 信息 服务 存储 
一 份 特 定 的 优化 模式 的 数据 ,况且 也 无 法 枚 举 出 所 有 可 能 的 信息 服务 需求 。 这 就 需要 医疗 
数据 的 存储 模型 能 够 适应 灵活 多 变 的 多 维 统计 分 析 需 求 。 


8.5.4 临床 信息 学 大 数据 分 析 


临床 信息 系统 收集 并 处 理 各 类 数据 来 进行 大 数据 分 析 实 现 医疗 决策 分 析 , 包 括 诊 断 和 
治疗 决策 .科学 研究 和 科学 发 现 、 临 床 试验 、 疗 法 趋势 的 监测 、 临 床 实践 中 不 良 反应 的 监测 ， 
还 支持 诸如 对 保险 索赔 和 解 的 审计 、 欺 诈 识 别 等 许多 商业 功能 。 数 据 来 源 主要 来 自 于 医院 
临床 报告 工作 会 议 记录 会 诊 报告 .日 记 \ 临 床 信息 系统 数据 、 其 他 相关 数据 等 ,给 临床 医学 
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大 数据 分 析 提 供 重要 依据 。 

临床 信息 学 所 能 实现 的 重要 目标 就 是 使 物理 学 家 和 护士 们 具备 监测 工具 功能 ,能 够 在 
病人 诊治 过 程 中 提前 发 布 病情 概率 预警 和 治疗 方法 提醒 ,从 而 医生 能 够 在 不 良 情 况 真正 发 
生前 采取 预防 措施 。 以 下 是 一 个 真实 的 案例 证 实 了 数据 采样 分 析 的 有 效 性 。 通 过 识别 高 频 
生命 体征 数据 (包括 心电图 信和 号、 血压 、 含 氧 量 , 以 及 相 类 似 的 以 O(125Hz) 频 率 测量 的 波形 
数据 ) ,这些 数 据 主要 采集 于 特级 护理 病人 的 床 边 。 为 了 从 生命 体征 数据 中 发 现 有 意义 的 信 
息 ,每 一 条 测量 通道 一 开始 都 被 分 成 & 个 连续 观察 的 序列 ,接着 使 用 Fourier 变换 以 获取 每 
一 段 原 始 信号 的 谱 分 布 。 然 后 ,从 那些 医学 上 认为 是 良性 观察 序列 中 提取 而 得 的 多 个 谱 分 
布 ,被 聚集 起 来 后 形成 一 张 k 维 常量 表 。 之 后 对 该 表 采 用 主 成 分 分 析 , 进 一 步 考虑 前 2 个 
成 分 ,这 个 成 分 构成 了 一 个 所 给 生命 体征 预期 正常 动态 的 零 空间 谱 模 型 ,给 每 条 测量 通 
道 分 别 建立 一 个 零 空 间 模型 。 之 后 ,对 每 一 组 新 观察 到 的 个 连续 测量 值 进行 Fourier 变 
换 , 再 投影 到 相应 零 空 间 模型 的 Peer 随 着 对 病人 的 观察 ,这 些 投影 在 每 条 测量 
通道 中 产生 了 p 个 时 间 序 列 。 然 后 ,对 每 个 这 样 的 时 间 序 列 应 用 控制 图 表 的 方法 (使 用 累 
积 和 方法 ) ,并 在 CuSum op 当 所 观测 的 生命 体征 的 谱 分 解 与 
基于 普通 医疗 数据 分 布 的 期 望 不 相 吻 合 时 ,这 些 警 戒 就 可 以 把 这 种 情况 标记 下 来 。 如 果 这 
样 的 标记 超过 100 个 , 那 就 需要 检查 身体 ,可 能 会 有 健康 恶化 的 情况 发 生 。 每 一 类 自动 提取 
的 情况 的 预测 效果 是 通过 训练 数据 来 量化 的 ,这 些 数据 除了 包含 生命 体征 外 ,还 含有 真实 的 
健康 预警 作用 。 


8.5.5 医学 文献 研究 知识 发 现 


医学 文献 系统 的 文本 挖掘 是 医学 研究 的 重要 课题 之 一 。 本 节 从 神经 文献 出 发 结合 神经 
本 体 原型 中 的 条 目 概 念 和 条 目 关系 进行 分 析 , 同 时 文本 挖掘 得 到 的 新 知识 又 可 以 为 神经 本 
体 更 新 和 维护 提供 知识 参考 。 文 本 挖掘 可 以 用 来 对 文献 数据 源 进行 自动 搜索 ,搜索 神经 影 
像 及 脑 功能 相关 方面 的 知识 和 信息 ,并 挖掘 潜在 相关 文献 ,从 而 有 利于 NILS 的 文献 更 新 。 
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更 为 重要 的 是 文本 挖掘 可 以 用 来 进行 基于 神经 信息 文献 的 知识 发 现 , 并 且 为 将 来 假设 驱动 
的 研究 模式 提供 基础 平台 ,揭示 文献 中 的 多 种 隐 含 关系 ,为 神经 影像 诊断 和 功能 识别 提供 新 
的 准确 预测 工具 。 随 着 学 科 专 业 的 逐步 细 化 ,专业 文献 的 研究 范围 开始 逐渐 缩小 ,专业 间 的 
沟通 变 得 越 来 越 困难 。 原 本 在 专业 文献 间 有 价值 的 关联 信息 ,由 于 专业 文献 的 高 度 分 化 ,日 
益 被 专业 内 部 海量 的 信息 掩盖 ,而 不 为 研究 人 员 所 发 现 。 由 于 公开 发 表 的 文献 中 存在 着 “未 
被 发 觉 的 公开 知识 ”, 重 拾 文献 中 的 隐 性 关联 ,对 于 科学 发 现 有 着 重大 的 意义 。“ 基 于 文献 的 
发 现 " 就 是 以 揭示 蕴含 于 公开 发 表 的 文献 ,但 尚未 被 人 们 认识 或 发 觉 的 知识 片段 间 的 逻辑 联 
系 , 从 而 提出 知识 假设 ,以 便 专业 研究 人 员 进 一 步 证 实 , 促 使 新 知识 的 产生 为 目的 的 信息 学 
研究 。 它 是 一 个 将 表面 上 没有 任何 联系 的 文献 中 的 具有 隐 含 逻辑 关系 的 知识 片段 组 织 起 来 
的 信息 处 理 过 程 。 虽 然 “ 基 于 文献 的 发 现 不 能 取代 传统 的 经 验 性 科研 工作 以 及 文献 查询 工 
作 , 但 它 为 科研 人 员 提 供 了 能 够 更 容易 地 组 织 大 量 潜在 有 用 信息 的 新 手段 ,并且 可 以 直接 促 
使 新 知识 的 产生 。 我 们 设计 的 基于 Swanson 的 知识 发 现 方法 ,主要 用 于 建立 面向 神经 影像 
研究 领域 的 交互 式 的 医学 知识 发 现 支持 系统 。 我 们 遵循 的 思路 是 首先 找 出 与 开始 概念 A 
相关 的 所 有 概念 集 B( 假 设 A 是 一 种 疾病 ,那么 B 可 能 是 病理 功能 、 症 状 等 ), 然 后 找 出 与 B 
相关 的 所 有 概念 集 C( 如 果 B 是 病理 功能 ,那么 C 可 能 是 某 个 分 子 , 从 病理 生理 学 方面 与 B 
有 结构 和 功能 上 的 关联 ), 最 后 检查 A 和 C 是 否 在 医学 文献 中 同时 出 现 。 如 果 A 与 C 没 有 
在 同一 文献 中 同时 出 现 , 我 们 就 发 现 了 二 者 之 间 新 的 潜在 相关 关系 ,并 且 这 种 关系 将 根据 
A、C 各 自 特 性 通过 实验 方法 .临床 研究 及 人 类 知识 判断 加 以 验证 或 和 否决。 与 传统 的 知识 发 
现 方法 相 比 ,这 一 ABC 模式 的 知识 发 现 过 程 明 显 增强 了 目的 性 和 方向 性 , 它 使 科研 人 员 找 
寻 这 种 隐藏 关系 的 过 程 不 再 盲目 。B 的 出 现 为 科研 人 员 提 供 有 益 的 启发 和 关键 性 的 引导 ， 
帮助 专业 研究 人 员 认 识 和 发 现 潜在 有 用 的 知识 片段 间 的 关联 ,进一步 证 实 科 学 假设 的 可 行 
性 。ABC 的 知识 发 现 模式 中 AB、BC 关联 的 找寻 及 AC 关联 的 最 终 确 证 都 需要 强 有 力 的 技 
术 和 方法 支持 ,这 就 需要 用 到 文本 挖掘 。 神 经 信息 文献 系统 中 的 文本 挖掘 模块 分 为 文本 分 
类 、 命 名 实体 识别 、 信 息 提取 及 知识 发 现 4 部 分 。 

1. 文本 分 类 

文本 分 类 的 方法 可 以 借鉴 于 机 器 学 习 (Machine Learning) ,常用 的 有 简单 贝 叶 斯 分 类 
法 (Naive Bayes) .决策 树 (Decision Trees) .神经 网 络 (Neural Networks)、 最 近似 然 法 
(Nearest Neighbor) ,支持 向 量 机 (Support Vector Machines,SVM) 等。 在 所 有 这 些 方法 中 
都 是 用 预先 分 类 的 文档 集 来 进行 训练 ,产生 一 个 关于 词 或 短语 使 用 的 统计 模型 ,然后 将 此 模 
型 应 用 到 未 分 类 文档 。 在 产生 训练 集 及 实际 分 类 前 有 两 个 预备 步骤 : 特征 提取 及 特征 集 转 
换 。 文 档 描 述 可 以 基于 字 词 (最 常用 ) 、 词 组 合 、 字 符 顺序 或 与 词 发 生 频 率 联系 的 概念 (很 少 
使 用 ) 。 特 征集 转换 有 两 个 目的 : 一 是 缩减 特征 集 的 大 小 ,希望 在 改善 效力 的 同时 改善 效 
率 ,二 是 对 特征 集 进行 缩放 或 增加 权重 来 改进 与 所 有 文档 集 有 关 的 文档 特征 描述 。 缩 减 特 
征集 的 大 小 通常 采用 词 干 法 .排除 禁用 词 及 除去 不 能 提高 分 类 器 的 辨别 力 却 增加 负担 的 稀 
有 词 等 方法 。 文 本 分 类 的 评估 指标 主要 有 分 类 正确 率 和 查 全 率 、 查 准 率 。 分 类 正确 率 是 针 
对 多 分 类 系统 的 ,而 查 全 率 和 查 准 率 主要 是 针对 双 分 类 系统 的 ,可 以 对 系统 进行 微调 : 牺牲 
查 全 率 来 提高 查 准 率 或 牺牲 查 准 率 来 提高 查 全 率 。 神 经 信息 文献 的 分 类 主要 是 将 采集 到 的 
文献 自动 归档 到 神经 系统 结构 ,神经 生理 学 、 脑 的 整合 功能 ,分 子 神经 科学 \ 临 床 神经 科学 等 
8 大 类 及 其 相应 小 类 中 , 既 有 利于 NILS 文献 的 自动 更 新 .又 为 知识 发 现 的 下 几 步 工作 打下 
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基础 。 文 本 分 类 根据 具体 的 事务 需求 可 选择 上 述 不 同 的 分 类 方法 ,也 可 以 将 几 种 方法 综 
利用 ,直至 完全 满足 需求 。 

2. 命名 实体 识别 

生物 医学 文献 中 的 命名 实体 .如 基因 蛋白质 .化合物 及 疾病 等 的 识别 ,是 促进 相关 文本 
的 搜索 及 生物 学 实体 间 相 互 关 系 识别 的 关键 。 由 于 生物 医学 语言 及 词汇 的 复杂 性 及 迅速 发 
展 ,使 得 生物 学 实体 的 识别 非常 辐 手 。 另 外 ,由 于 这 些 术语 及 词汇 本 身 缺 乏 统一 的 命名 规 
范 , 必 须 通过 上 下 文 背景 分 析 才 能 明白 相同 字符 所 表示 的 不 同 含义 及 同一 术语 不 同 的 表达 
形式 和 别名 等 ,这 也 增加 了 命名 实体 识别 的 难度 。 如 EGFR 既 可 指 表皮 生长 因子 
(Epidermal Growth Factor Receptor) ,又 可 指 估计 肾 小 球 过 滤 速 度 (Estimated Glomerular 
Filtration Rate) ,必须 根据 上 下 文 来 进行 语义 判断 。 神 经 信息 文献 系统 的 实体 主要 是 指 与 
神经 影像 及 脑 功能 相关 的 术语 ,包括 脑 解 剖 结 构 实 体 ( 中 枢 神 经 系统 、 脑 、 小 脑 、 浦 肯 野 氏 细 
胞 ) ,神经 系统 疾病 实体 (脑膜 瘤 .癫痫 .流行 性 脑 炎 )、 脑 的 高 级 功能 实体 (学 习 、 记忆、 疼痛 、 
嗅觉 ) ,神经 影像 技术 实体 ( 正 电子 发 射 断层 扫描 术 PET 功能 磁 共 振 成 像 {MRI) 等 不 同 层 
级 的 实体 对 象 。 识 别 命 名 实体 识别 模式 的 建立 有 手工 方式 和 通过 专家 系统 自动 学 习 方式 。 
机 器 学 习 技 术 、 隐 马尔 可 夫 模 型 (Hidden Markov Models,HMMS) 、 贝 叶 斯 学 习 、 决 策 树 、 支 
持 向 量 机 归纳 法 规则 学 习 是 命名 实体 识别 中 通常 采用 的 方法 。 例 如 , HMMs 可 以 将 基于 
词典 的 学 习 及 上 下 文 背景 分 析 结 合 起 来 对 实体 进行 标记 。 

3. 信息 提取 及 知识 发 现 

信息 提取 就 是 在 自由 文本 中 采用 基于 词类 (Part-Of-Speech,POS) 信 息 、 本 体 或 识别 模 
式 的 方法 识别 出 有 生物 学 意义 的 实体 关系 和 语义 结构 ,如 在 分 子 生 物 学 中 识别 出 蛋白 质 相 
互 作用 。 神 经 信息 文献 系统 中 的 信息 提取 主要 是 提取 神经 影像 . 脑 结构 . 脑 功 能 ,神经 疾病 、 
神经 生理 等 之 间 的 相互 依存 、 互 相关 联 及 互 为 因果 等 多 种 关系 。 信 息 提 取 所 得 到 的 只 是 知 
识 片断 ,还 必须 经 过 广泛 、 深 入 的 分 析 和 推导 才能 得 出 有 用 的 综合 知识 信息 ,这 些 有 用 知识 
既 可 用 于 神经 本 体 原型 的 构建 又 可 用 于 大 量 非 相 关 文 献 的 知识 发 现 。 


8.6 医疗 健康 大 数据 展望 


基于 医疗 卫生 的 海量 数据 ,通过 大 数据 分 析 进 行 预测 具有 非常 广泛 的 市 场 应 用 前 景 , 虽 
然 现 在 说 对 医疗 卫生 产生 颠覆 式 变 革 还 为 时 尚 早 ,但 是 基于 医疗 卫生 信息 的 大 数据 分 析 将 
改变 医疗 卫生 业务 的 方方面面 并 不 为 过 。 

未 来 医疗 的 精髓 在 于 电子 病历 .电子 健康 卡 以 及 相关 信息 (医药 、 人 口 等 ) 的 快速 准确 收 
集 \ 传 输 、 存 储 和 分 析 处 理 ,电子 病历 系统 以 电子 化 方式 记录 患者 就 诊 的 信息 。 

世界 各 国 对 电子 病历 的 建设 都 极其 重视 .美国 ,日 本 、 欧 洲 对 电子 病历 的 建设 均 进 行 
了 大 量 投入 。2009 年 美国 通过 的 经 济 复兴 法 案 同时 包括 10 年 190 亿美 元 在 电子 病历 领 
域 的 投入 ,目前 的 估计 是 实际 投入 将 达 270 亿美 元 ; 英国 政府 10 年 投入 了 55 亿 英 镑 做 
电子 病历 。 当 数 百 万 . 千 万 的 病历 汇集 在 一 起 ,利用 大 数据 进行 挖掘 后 ,其 应 用 前 景 十 分 
惊人 。 

对 患者 来 说 ,电子 病历 使 患者 拥有 自己 完整 的 电子 健康 和 医疗 档案 ,并 可 以 通过 索引 在 
各 个 医疗 机 构 调 取 自 己 的 相关 信息 ,实现 跨 地 区 、 跨 机 构 ,终生 的 医疗 健康 信息 共享 。 
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对 医疗 机 构 来 说 ,可 以 实现 患者 统一 高 效 的 管理 。 对 于 了 解 病情 、 临 床 决策 、 提 高 医疗 
质量 及 科学 研究 等 都 起 到 至 关 重要 的 作用 。 同 时 可 以 实现 区 域内 不 同 医疗 机 构 之 间 、 不 同 
应 用 系统 之 间 的 患者 映射 ,确保 患者 信息 交换 的 一 致 性 和 准确 性 。 

对 社保 机 构 而 言 , 可 以 通过 患者 主 索引 查阅 患者 的 健康 档案 ,从 而 准确 地 了 解 患者 完整 
的 医疗 信息 ,为 医疗 保险 提供 确切 的 证 明 。 

将 电子 病历 信息 进行 大 数据 挖掘 后 ,还 会 有 更 大 的 魔力 。 比 如 医疗 信息 系统 会 提醒 医 
生 开 处 方 时 患者 的 药物 过 敏 反 应 。 医 疗 信息 系统 还 可 用 于 人 和 群 监测 ,如 对 将 会 流行 的 传染 
病 的 早期 症状 加 以 监控 ,或 对 新 上 市 的 处 方药 的 副作用 加 以 关注 。 


“ 环保 行业 
“eS 大 数据 解决 方案 


训 
者 


环境 领域 将 迎 来 一 个 大 数据 互联 时 代 。 若 要 全 面 呈 现 环境 问题 ,尤其 需要 通过 互联 网 
实现 环境 数据 、 信 息 等 要 素 互 通 共享 ,从 而 推动 环境 问题 得 到 整体 有 效 解决 。 具 体 来 看 ,日 
前 主要 存在 以 下 3 种 与 环境 相关 的 数据 来 源 。 

第 一 ,环境 质量 。 这 是 指 外 部 自然 环境 质量 表征 ,典型 数据 信息 包括 大 气 、 地 表 水 、 水 资 
源 、. 土 壤 、 辐 射 \ 声 ,气象 等 环境 质量 ,通常 由 政府 及 有 关 部 门 ( 如 环境 保护 部 ) 公 开 其 制作 或 
获取 的 环境 信息 。 

基于 已 经 建立 起 来 的 以 国 控 , 省 控 \ 市 控 3 级 为 主 的 环境 质量 监测 网 ,形成 信息 公开 机 
制 ,初步 勾勒 出 了 我 国 整体 环境 质量 状况 。 比 如 ,全 国 城市 空气 质量 日 报 / 时 报 (367 个 城 
市 )、 全 国 主要 流域 重点 断面 水 质 自动 监测 周报 (145 个 监测 断面 )、 全 国 辐 射 环境 自动 监测 
站 空气 吸收 剂量 率 (44 个 站 点 ) 等 。 

第 二 ,污染 源 排 放 。 这 是 造成 环境 污染 的 核心 原因 ,具体 体现 为 废水 .废气 、 固 废 .放射 
源 等 形式 ,主要 包括 污染 源 基 本 情况 ,污染 源 监测 .设施 运行 ,总 量 控制 .污染 防治 .排污 费 征 
收 、 监 察 执法 ,行政 处 罚 , 环 境 应 急 等 环境 监管 信息 。 

《全 国 污染 源 普查 公报 ) 中 的 排污 数据 及 信息 ,将 是 政府 监管 以 及 公众 监督 的 重要 前 提 
与 基础 。 目 前 ,各 地 正 逐 步 落实 环境 保护 部 出 台 的 (关于 加 强 污 染 源 环境 监管 信息 公开 工作 
的 通知 ) 等 文件 。 以 北京 市 为 例 ,虽然 已 按 季 度 发 布 国 控 企 业 污 染 源 监督 性 监测 情况 ,而 27 
家 重点 排污 单位 和 上 市 企业 仅 于 2015 年 起 初步 实现 自行 监测 信息 对 外 发 布 ,实时 信息 公开 
仍 无 法 实现 。 

第 三 ,个 人 活动 产生 的 与 环境 相关 的 数据 信息 ,如 用 水 量 、 用 电量 、 生 活 中 产生 的 废弃 物 
等 。 尽 管 这 些 数据 拥有 巨大 的 潜在 价值 ,但 其 分 布 却 呈 现 天 然 的 分 散 状态 ,互联 网 特别 是 移 
动 互联 网 的 快速 广泛 应 用 正在 使 上 述 信息 的 收集 利用 变 得 可 行 。 

大 数据 的 核心 价值 之 一 就 是 个 性 化 的 商业 未 来 ,是 对 人 的 终极 关怀 。 环 保 电 力 大 数据 
通过 对 市 场 个 性 化 需求 和 企业 自身 良性 发 展 的 挖掘 和 满足 , 重 塑 中 国电 力 工业 核心 价值 , 驱 
动 电力 企业 从 “以 人 为 本 ”的 高 度 重新 审视 自己 的 核心 价值 ,由 “以 电力 生产 为 中 心 ”向 “以 客 
户 为 中 心 ? 转 变 , 并 将 其 最 终 落脚 在 "如何 更 好 地 服务 于 全 社会 "这 一 根本 任务 上 。 同 时 , 电 
力 大 数据 通过 对 电力 系统 生产 运行 方式 的 优化 ,对 间 吹 式 可 再 生 能 源 的 消 纳 以 及 对 全 社会 
节能 减 排 观念 的 引导 ,能 够 推动 中 国电 力 工业 由 高 耗 能 、 高 排放 、 低 效率 的 粗放 发 展 方式 向 
低 耗 能 、 低 排放 、 高 效率 的 绿色 发 展 方式 转变 。 
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9.1 环保 物 联网 


环保 物 联网 是 物 联网 技术 在 环保 领域 的 智能 应 用 ,通过 综合 应 用 传感器 、 全 球 定位 系 
统 、 视 频 监控 ,卫星 遥感 ,红外 探测 、 射 频 识别 等 装置 与 技术 ,实时 采集 污染 源 、 环 境 质 量 、 生 
态 等 信息 ,构建 全 方位 、 多 层次 ,全 覆盖 的 生态 环境 监测 网 络 ,推动 环境 信息 资源 高 效 、 精 准 
地 传递 ,通过 构建 海量 数据 资源 中 心 和 统一 的 服务 支撑 平台 ,支持 污染 源 监 控 \ 环 境 质 量 监 
测 、 监 督 执 法 及 管理 决策 等 环保 业务 的 全 程 智能 ,从 而 达到 促进 污染 减 排 与 环境 风险 防范 、 
培育 环保 战略 性 新 型 产业 促进 生态 文明 建设 和 环保 事业 科学 发 展 的 目的 。 


9.1.1 物 联 网 概念 


“ 物 联 网 ”这 一 概念 在 20 世纪 90 年 代 就 出 现 了 ,但 是 由 于 当时 无 线 网 络 和 传感器 等 相 
关 技 术 还 尚未 成 熟 , 因 此 没有 引起 普遍 重视 。2005 年 ,国际 电信 联盟 在 信息 社会 世界 峰会 
上 发 布 了 《ITU 互联 网 报告 2005: 物 联网 ) 报 告 , 才 正 式 引 用 了 物 联 网 概念 。 

物 联网 , 即 Internet of Things(IoT) ,顾名思义 ,就 是 “ 物 与 物 相 联 构成 的 网 络 ”"。 即 通 
过 射频 识别 .红外 感应 器 \ 全 球 定位 系统 、 激 光 扫 描 器 等 信息 传 感 设备 , 按 约定 的 协议 ,把 任 
何 物品 与 互联 网 相连 接 ,进行 信息 交换 和 通信 ,以 实现 对 物品 的 智能 化 识别 、 定 位、 跟踪 、 监 
控 和 管理 的 一 种 网 络 。 得 益 于 传 感 技术 、 网 络 通 信 技 术 、 大 数据 、 云 服务 等 软件 技术 的 发 展 ， 
网 络 将 从 对 计算 机 之 间 的 互相 连接 ,扩展 到 将 每 个 实际 物体 连接 起 来 。 人 与 人 、 人 与 物 \ 物 
与 物 之 间 能 够 互相 交换 信息 。 物 体 也 可 以 灵活 地 参与 到 商业 ,信息 和 社会 财产 活动 中 。 它 
们 可 以 与 环境 进行 互动 ,对 环境 的 改变 自动 做 出 相应 的 响应 。 最 终 ,将 无 颖 地 为 人 类 的 生产 
生活 提供 智能 化 和 便捷 化 服务 。 

按照 国际 电信 联盟 (ITU) 的 定义 : 物 联网 是 通过 RFID 和 智能 计算 等 技术 实现 全 世界 
设备 互联 的 网 络 。 如 图 9-1 所 示 ,在 不 久 的 将 来 , 物 联 网 有 可 能 如 互联 网 一 样 ,形成 一 个 全 
球 性 的 网 络 , 在 任何 时 间 、 任 何 地 点 ,任何 人 和 物 都 能 建立 连接 。 在 互联 网 时 代 , 主要 强调 的 
是 任何 时 间 、 任 何 地 点 两 个 维度 。 在 物 联网 时 代 , 增 加 了 第 三 个 维度 ,强调 了 任何 人 和 物体 
能 够 进行 连接 。 
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图 9-1 物 联 网 新 维度 
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9.1.2 物 联网 基本 架构 


物 联 网 是 新 一 代 信息 技术 的 高 度 集成 和 综合 运用 。 它 是 基于 社会 .经 济 领域 的 实际 管 
理 和 应 用 需求 ,利用 感知 技术 和 智能 装置 对 物理 世界 进行 感知 识别 ,通过 互联 网 、 移 动 通信 
网 等 网 络 的 传输 互联 ,进行 计算 、 处 理 和 知识 挖掘 ,实现 人 与 物 、 物 与 物 之 间 的 信息 交互 和 无 
缝 连接 ,提升 人 对 物理 世界 实时 控制 ,精确 管理 和 资源 优化 配置 能 力 ,从 而 实现 生产 生活 的 
科学 智能 决策 。 在 环保 行业 物 联网 中 ,主要 使 用 到 以 下 技术 ,下 面 分 别 具 体 介绍 。 

射频 识别 (Radio Frequency Identification,RFID) 技 术 , 又 称 无 线 射 频 识 别 ,是 一 种 通信 
技术 ,可 通过 无 线 电信 号 识别 特定 目标 并 读 写 相 关 数 据 ,而 无 须 识 别 系统 与 特定 目标 之 间 建 
立 机 械 或 光学 接触 。RFID 是 一 种 能 够 让 物品 “开口 说 话 ” 的 技术 ,其 标签 中 存储 着 规范 而 
具有 互 用 性 的 信息 ,通过 有 线 或 无 线 的 方式 把 它们 自动 采集 到 中 央 信 息 系统 ,实现 物品 的 识 
别 , 进 而 通过 开放 式 的 计算 机 网 络 实现 信息 交换 和 共享 ,实现 对 物品 的 “透明 "管理 。RFID 
系统 主要 由 3 部 分 组 成 : 电子 标签 (Tag) . 读 写 器 (Reader) 和 天 线 (Antenna)。 其 中 ,电子 
标签 芯片 具有 数据 存储 区 ,用 于 存储 待 识别 物品 的 标识 信息 ; 读 写 器 是 将 约定 格式 的 待 识 
别 物品 的 标识 信息 写 人 电子 标签 的 存储 区 中 ( 写 入 功能 ) ,或 在 读 写 器 的 阅读 范围 内 以 无 接 
触 的 方式 将 电子 标签 内 保存 的 信息 读 取 出 来 ( 读 出 功能 ); 天 线 用 于 发 射 和 接收 射频 信号， 
往往 内 置 在 电子 标签 和 读 写 器 中 。RFID 具有 无 须 接触 、 自 动 化 程度 高 .耐用 可 靠 、 识 别 速 
度 快 .适应 各 种 工作 环境 .可 实现 高 速 和 多 标签 同时 识别 等 优势 ,因此 可 用 于 广泛 的 领域 。 

条 形 码 /二 维 码 是 用 某 种 特定 的 集合 图 形 按 一 定 规 律 在 平面 分 布 黑白 相间 的 图 形 记 录 
数据 符号 信息 的 。 其 在 代码 编制 上 巧妙 地 利用 构成 计算 机 内 部 逻辑 基础 的 "0”1” 比 特 流 的 
概念 ,使 用 若干 个 与 二 进 制 相对 应 的 几何 形体 来 表示 文字 数值 信息 ,通过 图 像 输入 设备 或 光 
电 扫 描 设 备 自动 识 读 以 实现 信息 自动 处 理 。 同 时 还 具有 对 不 同行 的 信息 自动 识别 功能 ,及 
处 理 图 形 旋 转变 化 等 特点 。 目 前 .条形码 /二 维 码 技术 已 经 有 了 相当 广泛 的 应 用 。 

传感器 是 一 种 检测 装置 ,能 感受 到 被 测量 的 信息 ,并 能 将 感受 到 的 信息 , 按 一 定 规律 变 
换 成 为 电信 号 或 其 他 所 需 形式 的 信息 输出 ,以 满足 信息 的 传输 、 处 理 、 存 储 、 显 示 、 记 录 和 控 
制 等 要 求 。 它 是 实现 自动 检测 和 自动 控制 的 首要 环节 。 传 感 器 的 存在 和 发 展 ,让 物体 有 了 
触觉 .味觉 和 嗅觉 等 感官 ,让 物体 慢 慢 变 得 活 了 起 来 。 通 常 根据 其 基本 感知 功能 分 为 热 敏 元 
件 . 光 敏 元 件 . 气 敏 元 件 , 力 敏 元 件 、 磁 敏 元 件 ` 湿 敏 元 件 . 声 敏 元 件 . 放 射线 敏感 元 件 . 色 敏 元 
件 和 味 敏 元 件 等 10 大 类 。 

摄像 头 一 般 具 有 视频 摄像 /传播 和 静态 图 像 捕捉 等 基本 功能 , 它 是 借 由 镜头 采集 图 像 
后 ,由 摄像 头 内 的 感光 组 件 电 路 及 控制 组 件 对 图 像 进行 处 理 并 转换 成 计算 机 所 能 识别 的 数 
字 信 号 ,然后 借 由 并 行 端口 或 USB 连接 输入 到 计算 机 后 由 软件 再 进行 图 像 还 原 。 目 前 , 摄 
像 装置 被 广泛 用 于 各 类 监控 系统 中 。 

环保 网 络 包括 有 线 /无 线 通 信和 网 、 互 联网 、 物 联网 等 。 

有 线 / 无 线 通信 网 主要 用 于 企业 内 部 的 数据 交换 以 及 各 感知 设备 收集 数据 的 回 传 处 理 
等 ,其 主要 依靠 网 络 基 础 设施 实现 。 在 企业 运行 中 ,特别 是 保安 行业 这 种 比较 机 密 、 敏 感 的 
行业 ,大 量 的 数据 只 能 在 企业 内 部 流转 ,而 不 能 部 署 在 互联 网 上 ,而 且 不 同 的 人 员 应 当 具 有 
不 同 的 接 人 权限 .这 些 都 需要 内 部 通信 网 络 来 进行 控制 。 因 此 企业 内 部 的 有 线 / 无 线 通信 网 
承担 着 企业 内 部 信息 和 机 密 信息 的 流转 工作 ,可 以 说 相当 重要 .而 且 其 对 安全 性 的 要 求 也 很 
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高 。 此 外 ,企业 内 部 的 资源 .人 员 的 调度 和 沟通 也 离 不 开 有 线 / 无 线 通信 网 的 支持 。 

互联 网 大 家 都 很 熟悉 , 它 是 网 络 与 网 络 之 间 所 串联 成 的 庞大 网 络 , 这 些 网 络 以 一 组 通用 的 
协议 相连 ,形成 逻辑 上 的 单一 巨大 国际 网 络 , 主 要 依靠 网 络 基础 设施 实现 。 互 联网 主要 用 于 用 
户 对 企业 提供 的 各 类 服务 的 访问 以 及 企业 获取 外 部 信息 等 ,在 用 户 获取 服务 时 ,应 同时 提供 网 
页 端 和 移动 端的 互联 网 服务 ,以 提升 用 户 的 使 用 体验 ,无 论 是 用 户 发 起 某 种 需求 或 者 请 求 其 
他 服务 ,都 应 在 网 页 端 和 移动 端 提供 互联 网 接口 ,使 用 户 方便 地 获取 相应 的 服务 。 

物 联网 是 一 种 利用 局 部 网 络 或 互联 网 等 通信 技术 把 传感器 、 控 制 器 、 机 器 、 人 员 和 物 等 
通过 新 的 方式 联 在 一 起 ,形成 人 与 物 、 物 与 物 相 联 ,实现 信息 化 、 远 程 管理 控制 和 智能 化 的 网 
络 。 物 联网 是 互联 网 的 延伸 , 它 包括 互联 网 及 互联 网 上 所 有 的 资源 ,兼容 互联 网 所 有 的 应 
用 ,但 物 联网 中 所 有 的 元 素 ( 所 有 的 设备 .资源 及 通信 等 ) 都 是 个 性 化 和 私有 化 的 。 物 联网 主 
要 依靠 网 络 基础 设施 和 各 物 联 网 基础 设施 协调 实现 。 通 过 各 感知 器 之 间 的 信息 通信 和 信息 
回 传 ,企业 可 以 获知 系统 内 全 部 资源 的 运行 状况 .实时 画面 等 ,从 而 实现 对 系统 内 各 资源 的 
精细 化 、 智 能 化 管控 。 

如 图 9-2 所 示 为 环保 监控 物 联网 架构 图 。 物 联网 建设 内 容 包 括 感知 层 、 网 络 层 、 应 用 层 
的 建设 。 感 知 层 包括 条 码 识 读 器 、RFID 读 写 器 \ 传 感 器、 摄像头 .GPS、 手 机 ,实验 室 、 智 能 
车 条形码/ 二 维 码 扫描 器 等 感知 设备 的 部 署 , 接 入 和 管理 ; 感知 设备 通过 传 感 网 关 、M2M 
终端 .互联 网 关 将 采集 的 信号 发 送 给 物 联 网 网 络 层 , 物 联 网 网 络 层 建设 包括 物 联网 信息 中 心 
和 物 联网 管理 中 心 的 建设 , 物 联网 信息 中 心 是 数据 采集 的 信息 库 和 计算 能 力 集合 ,属于 大 数 
据 平 台 ; 物 联网 管理 中 心 主 要 针对 物 联 网 数据 的 统一 编码 、 认 证 、 鉴 权 和 计 费 。 通 过 信息 中 
心 和 管理 中 心 的 基础 物 联网 数据 能 力 ,实现 物 联 网 应 用 层 的 建设 。 
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图 9-2 环保 监控 物 联 网 架构 图 
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9.1.3 环保 物 联网 数据 


在 物 联网 大 数据 时 代 , 互 联网 ,移动 互联 网 、 物 联网 等 产生 的 数据 增长 比 以 往 任何 一 个 
时 期 都 快 很 多 ,具有 数据 规模 大 、 产 生 速 度 快 、 数 据 结构 复杂 多 样 这 3 个 显著 特性 。 随 着 物 
联网 的 快速 发 展 , 物 联网 中 的 数据 的 增长 也 非常 迅猛 ,其 创造 出 的 数据 将 远 多 于 互联 网 。 物 
联网 所 创造 出 的 数据 ,描绘 的 是 物质 运动 .经 济 变化 .自然 变化 等 规律 ,其 数据 更 加 真实 、 可 
靠 、 有 价值 ,可 以 从 中 挖掘 出 更 丰富 、 更 有 用 的 知识 。 


9.2 环保 电力 脱硫 


9.2.1 火电 脱硫 的 重要 性 


中 国 环境 科学 研究 院 的 研究 表明 ,为 使 我 国 的 工业 可 持续 发 展 ,从 长 远 来 看 ,我 国 二 氧 
化 硫 的 排放 量 应 控制 在 1200 万 吨 /年 .其 中 电力 行业 排放 的 二 氧化 硫 应 控制 在 550 万 吨 /年 
以 下 ,新 修订 的 (火电 厂 大 气 污染 物 排放 标准 》(GB 13223 一 2003) 规 定 了 火电 厂 大 气 污染 物 
最 高 允许 排放 限 值 ,火电 厂 建设 项 目的 环境 影响 评价 .设计 、 竣 工 验收 和 建成 运行 后 的 排放 
管理 必须 遵守 本 标准 ,因此 ,火电 厂 必须 配备 脱硫 系统 。 

根据 规定 ,2004 年 后 建成 的 火电 站 的 二 氧化 硫 的 浓度 必须 低 于 400mg/m' 。 在 脱硫 效 
率 方面 ,一 般 规定 需要 在 95% 或 以 上 。 所 以 .为 了 使 排放 废气 达到 标准 ,必须 对 废气 进行 处 
理 ,而 大 部 分 火电 站 采用 的 就 是 废气 脱硫 系统 (FGD)。 


9.2.2 火电 脱硫 系统 工作 原理 


脱硫 系统 属于 电力 系统 的 环保 系统 ,主要 是 去 除 火电 厂 废气 中 的 二 氧化 硫 等 硫化 物 ,使 
其 含 硫 量 符合 国家 规定 标准 。 
脱硫 系统 工作 原理 图 ,如 图 9-3 所 示 。 脱 硫 系 统 主要 依靠 石灰 石 与 二 氧化 硫 发 生化 学 
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ee 
反应 来 达到 脱硫 的 作用 ,该 反应 发 生 在 吸收 塔 内 , 送 入 吸收 塔 的 吸收 剂 一 一 石灰 石 浆 液 与 冷 
却 后 进入 吸收 塔 内 的 烟 气 充 分 混合 后 , 烟 气 中 的 二 氧化 硫 (SO: ) 与 石灰 石 (CaCOs ) 及 鼓 人 
吸收 塔 内 的 氧气 发 生化 学 反应 ,生成 二 水 硫酸 钙 , 即 石膏 (CaSO4. H:O) ,脱硫 后 的 烟 气 依次 
经 过 除 雾 器 除去 雾 滴 ,加 热 升温 后 经 烟 向 排 信 大气 ,而 石膏 则 经 过 石膏 浆 泵 排出 吸收 塔 。 


9.2.3 火电 脱硫 相关 数据 

火电 厂 大 数据 有 非常 重要 的 参考 价值 ,我 们 希望 通过 数据 分 析 , 挖 气 其 中 有 价值 的 信 
息 。 通 过 火电 厂 数据 分 类 ,有 锅炉 数据 (锅炉 效率 、 过 热气 温 、 再 热气 温 、 排 雾 率 ,锅炉 合 氧 量 
等 ) 汽机 数据 (汽机 效率 、 汽 耗 率 、 真 空 度 等 )。 

根据 (电厂 排 口 数据 分 析 报告 ) 和 脱硫 量 相 关 的 烟 气 系统 参数 分 析 , 可 知 : 旁 路 挡 板 开 


























度 ,浆液 pH 值 , 增 风 压 机 电流 ,循环 和 泵 电流 等 。 其 他 还 有 : 进入 吸收 塔 内 烟 气 的 温度 、 湿 
度 、 含 氧 量 ,机 组 负荷 ,吸收 塔 排出 烟 气 的 温度 、 湿 度 、 含 氧 量 等 ,如 表 9-1 所 示 。 
表 9-1 脱硫 系统 参数 

烟 气 系统 公用 系统 吸收 塔 系统 烟 气 换 热 器 氧化 空气 | 增 压 风机 
氧 量 除 雾 器 冲洗 水 流量 | 石膏 浆液 pPH 值 | 主 驱 动 电 机 电流 | 一 级 轴承 温度 | 轴承 温度 

烟 温 石灰 石 浆液 流量 | 吸收 塔 液 位 顶部 轴承 油 温 “| 二 级 轴承 温度 | 电机 A 相 温度 
含 湿 量 本人 循环 泵 轴承 温度 | 转换 信号 电机 绕组 温度 | 电机 B 相 温度 
ee 真空 泵 回路 电流 ee 底部 轴承 油 温 “| 驱动 轴承 温度 | 电机 C 相 温度 
机 组 负荷 工艺 水 泵 电流 搅拌 器 电流 歇 扫 茹 汽 温度 | 空气 出 口 温度 | 轴承 温度 
泵 液 pH 值 ee 浆 循 环 泵 电流 “| 吹 扫 莱 汽 压 力 | 空气 出 口 流量 | 润滑 油 温 度 
增 压 风机 电流 | 除 雾 器 冲洗 水 压力 | 石膏 排出 泵 电流 | 低 泄漏 风机 电流 | 电流 润滑 油箱 温度 
循环 泵 电流 “| 循环 排污 水 流量 “| 石膏 浆液 密度 ”| 辅 驱 动 电机 电流 di 亚 油 箱 油 温 

















由 火电 厂 运营 情况 可 知 ,进口 含 氧 量 基本 处 于 4% 左右 ,出 口 会 增加 0.5%。 数 据 采 集 
要 在 一 定 状 态 下 进行 ,假设 风机 正常 运行 状态 ,不 需要 调节 ; 炉 旁 路 挡 板 开 度 基本 保持 关 
闭 ; 浆液 循环 泵 保持 不 能 调 ; pH 值 为 监控 到 的 状态 参数 ,目前 运行 时 一 般 调节 在 5. 1 一 
5.5。 因 此 ,我 们 只 计算 增 压 风机 和 pH 值 。 具 体 参考 图 9-4 ,脱硫 系统 工艺 流程 图 。 


脱硫 性 能 优化 目标 
通过 对 海量 的 脱硫 历史 数据 进行 分 析 , 在 满足 国家 规定 的 脱硫 指标 的 前 提 下 ,对 脱硫 系 
统 可 调 参数 进行 优化 ,实现 降低 脱硫 成 本 的 目标 。 
1. 脱硫 参数 优化 
脱硫 参数 优化 目标 : 在 满足 一 定 脱硫 量 和 脱硫 效率 (95%) 的 前 提 下 ,对 脱硫 系统 的 各 
个 可 调 参数 进行 优化 。 主 要 针对 锅炉 效率 优化 、 排 口 脱硫 量 预测 等 。 
2. 脱硫 成 本 优化 
脱硫 成 本 优化 目标 : 在 满足 一 定 脱硫 量 和 脱硫 效率 (95%) 的 前 提 下 ,最 小 化 脱硫 系统 
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图 9-4 脱硫 系统 工艺 流程 图 


成 本 ,从 而 最 大 化 经 济 利益 。 


9.3 火电 行业 脱硫 大 数据 分 析 


随 着 信息 通信 技术 的 不 断 进步 ,数字 化 、 信 息 化 已 经 渗透 进入 们 生活 中 的 各 个 角落 。 据 
IDC 编制 的 年 度数 字 宇 宙 研 究 报告 4 从 混沌 中 提取 价值 ?表明 ,世界 已 进入 了 ”数字 摩尔 时 
期 ,全球 数 据 量 大 约 每 两 年 翻 一 番 。 从 人 类 出 现 文明 到 2003 年 ,人 类 总 共产 生 了 5EB( 百 
亿 亿 字 节 ) 数 据 , 而 这 仅 是 当前 人 类 社会 两 天 的 数据 量 。 我 们 正 处 于 数据 世界 一 个 重要 历史 
爆发 期 的 边缘 ,数据 是 资产 是 财富 的 观念 已 深入 人 心 ,大 数据 应 用 已 是 大 势 所 趋 “ 大 数据 时 
代 ” 已 然 到 来 。 


9.3.1 主要 理论 和 方法 


随 着 大 数据 分 析 在 各 个 行业 应 用 的 深入 发 展 ,基于 大 数据 分 析 和 数据 挖掘 的 知识 和 方 
法 主要 包括 : 知识 发 现 、 机 器 学 习 、 统 计 分 析 、 模 式 识 别 和 人 工 智能 等 领域 的 方法 ,如 聚 类 、 
分 类 、 关 联 规则 分 析 、 神 经 网 络 、 遗 传 算法 、 进 化 算法 和 粗 烽 集 等 。 以 下 主要 介绍 电力 行业 应 
用 的 大 数据 分 析 方法 。 

1. 聚 类 和 模糊 聚 类 

聚 类 就 是 将 数据 对 象 分 组 成 为 多 个 类 或 簇 ,同一 个 类 中 的 对 象 具 有 和 较 高 的 相似 度 ， 
而 不 同类 中 的 对 象 差别 较 大 。 一 般 情况 下 , 聚 类 分 析 不 要 求 训练 数据 提供 类 标记 , 聚 类 
可 以 用 于 产生 这 种 类 标记 。 聚 类 按照 某 个 特定 标准 最 终 形成 的 每 个 类 ,在 空间 上 都 是 一 
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个 稠密 的 区 域 , 聚 类 技术 可 以 把 数据 划分 为 一 系列 有 意义 的 子 集 ,进而 实现 对 数据 的 
分 析 。 

(1) & 均 值 聚 类 。A 均值 (k-means) 算 法 是 一 种 常用 的 基于 划分 的 聚 类 算法 。k 均值 算 
法 是 以 & 为 参数 ,把 nn 个 对 象 分 成 & 个 簇 ,使 徐 内 具有 较 高 相识 度 , 而 簇 间 相 识 度 较 低 。k 
均值 算法 的 处 理 过 程 为 : 首先 随机 选择 & 个 对 象 作为 初始 的 & 个 簇 的 质心 ,然后 将 其 余 对 
象 根据 其 余 各 个 簇 的 质心 的 距离 分 配 到 最 近 的 簇 ,最 后 重新 计算 各 个 簇 的 质心 。 不 断 重复 
此 过 程 ,直到 目标 函数 最 小 为 止 。 簇 的 质心 为 簇 内 所 有 点 的 算术 平均 值 ,对 象 到 质心 的 距离 
一 般 采 用 欧式 距离 ,目标 函数 采用 平方 误差 准则 函数 

= 袜 之 |P;—m? | 
其 中 ,EE 为 数据 库 中 所 有 对 象 与 相应 簇 的 质心 的 距离 之 和 ,已 代表 对 象 空间 中 的 一 个 对 象 ， 
m 为 簇 的 算术 平均 值 。 公 式 所 示 的 目标 函数 旨 在 使 所 获得 的 聚 类 具有 这 样 的 特点 : 各 聚 类 
本 身 尽 可 能 紧凑 ,而 不 是 聚 类 之 间 尽 可 能 地 分 离 。 

上 均值 算法 尝试 找 出 使 平方 误差 函数 值 最 小 的 & 个 划分 ,是 解决 聚 类 问题 的 一 种 
经 典 算法 。 它 的 主要 优点 是 算法 简捷 ,如 果 数 据 分 布 较 均 匀 , 结 果 簇 是 密集 的 , 且 簇 与 
簇 之 间 区 别 明 显 时 , 它 的 效果 最 好 。 在 处 理 大 的 数据 集 时 ,该 算法 是 相对 可 伸缩 和 高 
效率 的 。 

(2) 模糊 聚 类 。 模 糊 聚 类 算法 包括 FCM 算法 ,模糊 C 均值 算法 等 。 FCM 算法 是 一 种 
基于 划分 的 聚 类 算法 , 它 的 思想 就 是 使 得 被 划分 到 同一 簇 的 对 象 之 间 相 识 度 最 大 ,而 不 同 簇 
之 间 的 相识 度 最 小 。 模 糊 C 均值 算法 是 普通 C 均值 算法 的 优化 ,普通 C 均值 算法 对 于 数据 
的 划分 是 硬性 的 ,而 FCM 则 是 一 种 柔性 的 模糊 划分 。 

2. 模糊 关联 规则 挖掘 

关联 规则 挖掘 是 从 给 定 的 数据 集中 发 现 频繁 出 现 的 项 集 模 式 知 识 , 即 从 大 量 的 数据 中 
挖掘 出 有 价值 的 描述 数据 项 之 间 相 互联 系 的 有 关 知 识 。 关 联 规则 按 处 理 的 变量 类 别 可 分 
为 : 布尔 型 和 数据 型 关联 规则 ; 按 挖掘 的 抽象 层次 可 分 为 : 单 层 和 多 层 关联 规则 ; 按 用 于 
挖掘 的 数据 维度 可 分 为 : 单 维和 多 维 关联 规则 。 


9.3.2 最 优化 脱硫 可 调 参数 


通过 数据 挖掘 分 析 对 脱硫 系统 可 调 参数 进行 最 优化 处 理 , 其 过 程 主要 分 为 3 个 阶段 ,如 
图 9-5 所 示 ,包括 k-means 自然 工 况 划分 .FCM 模糊 化 聚 类 、 模 糊 关 联 规则 挖掘 。 


FCM 模 糊 化 聚 类 模糊 关联 规则 挖掘 


图 9-5 数据 挖掘 分 析 过 程 示意 图 








k-means 自然 工 况 划分 























第 一 步 ,基于 k-means 的 自然 工 况 划 分 。 

机 组 的 负荷 工 况 变化 范围 很 大 。 负 荷 作为 机 组 最 重要 的 边界 条 件 . 它 的 变化 会 引起 机 
组 很 多 运行 参数 的 变化 。 传 统 的 优化 方法 往往 是 选择 机 组 的 几 个 典型 负荷 点 作为 典型 工 况 
进行 研究 ,如 50%、70%、80%、90% 等 的 负荷 工 况 。 目 前 ,电厂 经 常 面 对 诸 如 环保 约束 变化 
等 情况 ,典型 负荷 不 一 定 是 其 常见 的 运行 工 况 。 因 此 .本 文 提出 从 机 组 历史 数据 中 分 析 该 机 
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组 常见 的 运行 工 况 ,采用 聚 类 算法 将 负荷 和 入 口 SO: 含量 进行 自然 划分 。 

第 二 步 ,基于 FCM 模糊 化 聚 类 的 连续 值 离散 化 。 

经 过 划分 工 况 簇 后 ,在 每 一 个 工 况 簇 下 求 最 优 可 调 参 数 。 

因为 输入 属性 全 是 连续 值 ,不 能 直接 采用 关联 规则 挖掘 进行 输入 属性 的 最 优化 ,所 以 需 
要 对 输入 属性 进行 离散 化 处 理 。 最 简单 的 离散 化 方式 是 分 段 , 但 是 这 样 做 会 造成 硬 边界 ,为 
了 避免 硬 边界 ,我们 采用 基于 模糊 集 的 模糊 C 均值 算法 。 该 算法 对 于 每 一 个 输入 属性 ,将 
其 划分 成 C 个 类 ,每 一 个 连续 值 对 于 每 一 个 类 都 有 一 个 隶属 度 , 且 该 连续 值 对 于 C 个 类 的 
属性 度 的 和 为 1。 利 用 FCM 算法 就 是 求 得 输入 数据 中 每 一 条 记录 在 每 一 个 输入 属性 的 值 
对 于 每 一 个 该 输入 属性 的 分 类 的 隶属 度 。 如 果 有 N 条 输入 记录 ,M 个 输入 属性 ,每 个 输入 
属性 划分 成 C 个 类 , 则 利用 FCM 算法 求 得 的 是 一 个 NXMXC 的 矩阵 。 最 后 将 每 一 个 属 
性 模糊 化 为 3 个 区 间 段 概念 , 即 高 .中 、 低 。 

第 三 步 , 通 过 模糊 关联 规则 挖掘 最 优 参数 组 合 。 

连续 值 离散 后 ,我们 采取 模糊 关联 规则 挖掘 的 算法 ,计算 每 个 工 况 复 下 最 优 参数 组 合 ， 
即 每 个 参数 应 该 调 为 高 ,中 或 者 低 。 最 后 , 取 聚 类 质心 和 区 间 代 表 该 工 况 复 下 该 参数 应 该 调 
节 的 大 小 。 


9.3.3 最 小 化 脱硫 系统 成 本 


要 想 达 到 最 小 化 脱硫 成 本 ,首先 要 定义 整个 脱硫 系统 的 成 本 (cost),cost 为 各 个 可 调 参 
数 的 函数 











cost = f(zx) 
其 中 ,x= {zx1,xz，… ,xm}) 是 各 个 可 调 参 数 。 
定义 脱硫 量 与 各 个 可 调 参 数 的 关系 
Gd= g(x) 


要 使 得 脱硫 量 大 于 一 个 给 定 值 h, 其 中 ,.h 为 给 定 的 最 小 脱硫 量 。 
Gd= g(x) 三 h 
因此 ,最 小 脱硫 量 可 以 表达 为 
Min cost = f(x) 
使 得 
Gd= g(x) 宇 h 
可 以 先 用 模糊 关联 规则 求 得 离散 属性 值 的 集合 ,然后 对 于 所 有 隶属 于 这 些 离散 属性 值 
集合 的 运行 记录 求 得 其 成 本 (cost) , 取 成 本 最 低 的 运行 记录 的 值 为 最 终结 果 。 
在 成 本 最 低 参 数 选取 阶段 ,对 于 所 有 隶属 于 模糊 关联 规则 挖掘 出 的 离散 属性 集合 的 输 
入 记录 ,将 其 连续 值 属性 代入 cost 方程 中 : 求 出 使 得 成 本 最 低 的 记录 。 该 条 记录 的 各 个 连 
续 值 属性 的 值 就 是 使 得 成 本 最 低 的 参数 。 


9.4 空气 质量 大 数据 分 析 评 价 体系 


一 直 以 来 ,北京 十 分 关注 环境 质量 改善 ,尤其 是 2008 年 环境 质量 跨越 式 提升 。 但 随 着 
人 口 数量 的 攀升 、 城 市 规模 的 扩张 ,环境 质量 依然 不 能 令 人 满意 。2013 年 1 月 ,北京 的 
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he 
PM2. 5 基本 在 100 微克 /立方 米 以 上 ,多 数 时 间 在 139 微克 /立方 米 以 上 ,重度 污染 超过 
4 次 , 仅 5 天 没有 雾 狂 。2012 年 北京 因为 PM2. 5 早死 的 人 数 达到 2589 人 ,经 济 损失 达 
20. 6 亿 。 作 为 发 展 中 国家 建设 世界 城市 的 先锋 ,客观 上 要 求 北京 必须 瞄准 国际 城市 的 高 端 
形态 ,不 断 提高 城市 国际 化 水 平 , 然 而 环境 污染 已 经 成 为 北京 吸引 跨国 公司 \ 国 际 组 织 和 全 
球 高 端 人 才 的 一 道 鸿沟 ,严重 阻碍 了 世界 城市 的 建设 步伐 。 北京 环境 污染 不 仅 带 来 巨大 的 
经 济 损失 ,也 给 市 民 的 身体 健康 带 来 巨大 威胁 ,已 经 引起 了 中 央 和 北京 市 的 高 度 重视 。 北 京 
环境 污染 治理 需要 借鉴 发 达 国 家 的 先进 经 验 , 但 更 需要 探索 适合 国情 .市 情 的 治理 对 策 。 因 
此 ,需要 准确 评价 和 正确 认识 北京 在 全 国 范围 内 的 环境 污染 水 平和 北京 自身 的 环境 污染 变 
化 趋势 ,全 面 掌握 北 京 环境 污染 现状 ,准确 把 握 其 区 域 差异 和 演变 规律 ,这 对 于 科学 提出 北 
京 环 境 污染 治理 的 政策 建议 ,促进 北京 经 济 、 社 会 可 持续 发 展 具 有 重要 的 现实 意义 ,同时 也 
对 我 国 其 他 城市 的 环境 污染 治理 政策 的 制定 提供 有 益 借鉴 。 


9.4.1 基于 粹 权 的 模糊 综合 评价 方法 的 原理 


模糊 综合 评价 是 以 模糊 数学 为 基础 ,对 多 种 影响 因素 的 事物 或 现象 进行 总 的 评价 ,克服 
了 各 种 复杂 多 变 的 不 确定 性 因素 的 影响 。 本 文采 用 炉 权 法 为 评价 指标 客观 赋 权 , 炉 权 法 是 
把 评价 中 各 评价 指标 的 信息 进行 量化 与 综合 ,计算 各 指标 反映 的 信息 炉 ,通过 各 指标 的 信息 
烂 来 确定 权重 的 客观 赋 权 方法 , 炉 权 法 有 效 地 避免 了 人 为 因素 的 干扰 ,使 评价 结果 更 符合 实 
际 ,从 而 给 出 客观 、 可 靠 的 评价 结果 。 设 有 mi 个 评价 指标 ,nn 个 评价 对 象 , 则 形成 原始 数据 矩 
阵 久 二 (zi)mxn， 对 于 某 项 指标 i, 指标 值 zi 的 差异 越 大 , 则 该 指标 在 综合 评价 中 所 起 的 作用 
越 大 。 如 果 某 项 指标 的 指标 值 全 部 相等 , 则 该 指标 在 综合 评价 中 几乎 不 起 作用 。 基 于 灶 权 
法 的 模糊 综合 评价 有 以 下 4 个 步骤 。 

1. 原始 数据 和 矩阵 标准 化 

mm 个 评价 指标 ,n 个 评价 对 象 得 到 的 原始 数据 矩阵 为 


a an 
0 (9-1) 





A= 





对 该 矩阵 标准 化 得 到 
R = (rs ) nxn (9-2) 
式 中 ,ri 为 第 j 个 评价 对 象 在 第 i 个 评价 指标 上 的 标准 值 ,rs € [0.1] 。 其 中 对 大 者 为 优 的 
收益 性 指标 而 言 ,有 
Xi — min{xs} 

oa (9-3) 

”max{zxs} — min{zx;} 
其 中 对 小 者 为 优 的 成 本 性 指标 而 言 .有 


max( zy —5 
j 


ee Em Tp 9-4 
名 max{zxs} — min{ zy} 人 


2. 定义 炳 


环境 质量 统计 口径 包括 5 个 方面 : 大 气 环 境 、 水 环境 、 声 环境 、 辐 射 环境 和 生态 环境 。 
其 中 ,31 个 城市 的 辐射 环境 质量 均 属 正 常 及 以 上 ; 生态 环境 质量 比 本 文 研 究 的 环境 质量 含 
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义 更 广 , 将 另 立 专题 展开 专门 研究 。 因 此 ,本文 将 不 涉及 辆 射 环境 和 生态 环境 。 如 无 特殊 声 

明 , 本 节 所 涉及 的 与 北京 相关 的 数据 均 通 过 《北京 统计 年 鉴 2001 一 2012》 和 《2000 一 2011 年 

北京 市 环境 状况 公报 》 和 《北京 区 域 统计 年 鉴 2012) 直 接 或 计算 整理 获得 。 


其 中 , 方 = - 严 ,k= 二 , 当 方 =0 时 , 令 方 n 亡 =0。 


lnn 








7 
j=1 


在 有 m 个 指标 ,n 个 被 评价 对 象 的 评估 问题 中 ,第 i 个 指标 的 炉 定 义 为 


Hi; =—kD folnfs, i= 1,2,,m (9-5) 
二 1 
3. 定义 焙 权 
定义 了 第 i 个 指标 的 炉 之 后 ,可 得 到 第 i 个 指标 的 炉 权 定义 , 即 
w= = (9-6) 
mC— > 再， 


其 中 ,0<w<1，> w = 1。 
i=1 


4. 计算 模糊 综合 评价 结果 
对 于 权重 A 三 {ww,ws，… ,wn) 与 模糊 关系 矩阵 尺 ,计算 模糊 评价 结果 
了 三 AR 三 [Love (9-7) 
式 中 ,“。” 为 模糊 算 子 ,Z 为 综合 评价 值 。 


9.4.2 综合 评价 指标 选择 与 数据 来 源 


根据 北京 环境 保护 监测 中 心 监测 项 目 《 北 京 统计 年 鉴 2000 一 2013》 和 《2000 一 2012 北 
京 环境 状况 公报 ) 统 计 口 径 , 结 合 我 国 和 北京 环境 污染 的 现实 情况 ,综合 考虑 大 气 环境 水 环 
境 和 声 环境 3 个 维度 ,选取 可 吸入 颗粒 物 每 立方 米 含量 、 二 氧化 硫 每 立方 米 含量 、 二 氧化 毛 
每 立方 米 含量 、 空 气质 量 低 于 二 级 天 数 、 化 学 需 氧 量 (横向 比较 时 为 人 均 化 学 需 氧 量 ) ,区域 
环境 噪声 和 道路 交通 噪声 等 7 个 指标 ,以 期 能 够 全 面 .客观 地 反映 环境 污染 水 平 。 

在 北京 自身 纵向 比较 评价 中 ,原始 数据 为 北京 2000 一 2012 年 度 的 相关 数据 。7 个 评价 
指标 数据 根据 《北京 统计 年 鉴 2001 一 2013》 和 《2000 一 2012 年 北京 市 环境 状况 公报 ) 计 算 整 
理 所 得 。 

在 北京 与 其 他 城市 横向 比较 评价 中 ,原始 数据 为 中 国 大 陆 4 个 直辖 市 和 27 个 省 会 城市 
2012 年 度 的 相关 数据 。7 个 评价 指标 数据 根据 (中 国 统计 年 鉴 2013》 和 31 个 城市 的 (2012 
年 国民 经 济 和 社会 发 展 统计 公报 ) 计 算 整 理 所 得 。 


9.4.3 环境 质量 综合 评价 结果 及 分 析 


各 指标 均 属 逆向 指标 ,采用 式 (9-4) 对 全 部 指标 数据 进行 标准 化 处 理 ,利用 基于 炉 权 的 模 
糊 综合 评价 法 对 北京 环境 质量 分 别 进行 纵向 和 横向 综合 评价 。 计 算 结 果 如 图 9-6 和 表 9-2 
所 示 。 


me 大 数据 . 教 据 管理 与 数据 工程 
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4 4 hn 1 4 4 4 


2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 
图 9-6 2000 一 2012 年 北京 环境 质量 变化 趋势 





表 92 全 国 31 个 城市 环境 质量 综合 评价 结果 排名 



































排名 城市 得 分 排名 城市 得 分 排名 城市 得 分 
1 海口 0. 8310 12 上 海 0. 5640 23 西安 0. 4401 
小 拉萨 0. 8009 13 长 春 0. 5192 24 哈尔滨 0. 4321 
3 昆明 0. 6888 14 杭州 0. 5188 25 武汉 0. 4153 
4 贵阳 0. 6742 15. 银川 0.5014 26 北京 0. 4060 
5 合肥 0.6310 16 南京 0. 4634 27 呼和浩特 | 0.3738 
6 南宁 0. 6207 17 郑州 0. 4622 28 成 都 0. 3712 
重庆 0. 6191 18 石家庄 0. 4578 29 沈阳 0. 3537 
8 福州 0. 6175 19 长 沙 0. 4552 30 乌鲁木齐 | 0. 3223 
9 太原 0. 5896 20 天 津 0.4534 31 兰州 0. 2941 
10 广州 0. 5852 21 西宁 0. 4520 
11 南昌 0.5798 22 济南 0. 4426 























评价 结果 显示 : @ 环 境 质量 总 体 呈 上 升 趋势 ,2008 年 大 幅 提高 ,随后 有 所 下 滑 ( 图 9-6) 。 
2008 年 各 指标 下 降幅 度 较 大 ( 表 9-3)., 据 (2008 年 北京 市 环境 状况 公报 》 显 示 , 这 与 北京 召 
开 奥 运 会 、 残 奥 会 采取 的 多 种 污染 治理 措施 有 关 。 四 指标 值 虽 然 呈 下 降 趋 势 ,但 与 国家 标准 
仍 有 差距 。2000 一 2012 年 ,除了 化 学 需 氧 量 和 区 域 环境 噪声 分 别 以 年 均 0. 34% 和 0. 02% 
增长 ,可 吸入 颗粒 物 、 二 氧化 硫 、 二 氧化 氮 和 道路 交通 噪声 分 别 以 年 均 3. 25%、 一 7.45%、 
一 2. 56% 和 0.21% 递 碱 ,但 根据 (中 华人 民 共 和 国 环境 空气 质量 标准 GB 3095 一 1996》《 中 
华人 民 共 和 国 声 环境 质量 标准 GB 3096 一 2008》 和 《国家 环境 保护 模范 城市 考核 指标 及 其 实 
施 细则 (第 六 阶段 )》, 只 有 二 氧化 硫 和 二 氧化 氮 优 于 国家 标准 ,其 他 各 指标 (化 学 需 氧 量 标准 
无 法 获得 ) 均 劣 于 国家 标准 (如 图 9-7 所 示 , 设 定 国家 标准 为 1) 。 回 环境 污染 程度 仍然 较 高 ， 
在 31 个 城市 中 排 在 第 26 位 ( 表 9-2)。 大 部 分 指标 值 标准 差 相 对 较 小 ( 表 9-4) ,排名 靠 前 的 
指标 对 于 综合 排名 提升 贡献 不 大 ,北京 环境 质量 综合 得 分 较 低 ,主要 是 大 气 污 染 所 致 。 

表 9-3 2008 年 各 评价 指标 变化 趋势 



































可 吸入 | _ _，，， | 二 级 以 | 化 学 需 | 区 域 环 | 道路 交 
颗粒 物 Bs Bs 下 天 数 氧 量 境 噪声 | 通 噪声 
年 均 增 长 率 —3.25% | —7.45% | 一 2.56% | 一 6.49%% | 0.34% | 0.02% |—0.21% 
2008 年 比 2007 年 增长 率 | 一 17.43%| 一 23.40%| 一 25.76%| 一 23.53%| 一 5.61% 0.74% | —0.43% 
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图 9-7 2012 年 北京 环境 质量 评价 部 分 指标 与 国家 标准 对 比 
表 9-4 2012 年 北京 环境 质量 评价 各 指标 31 个 城市 排名 和 指标 值 标 准 差 














可 吸入 | _ 二 级 以 | 化 学 需 | 区 域 环 | 道路 交 

颗粒 物 二 下 天 数 氧 量 境 噪声 | 通 噪 声 
城市 排名 27 9 28 30 4 12 21 
指标 值 标准 差 0.02 0.15 0.01 24.57 0.01 1.75 0. 89 
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过 去 数 十 年 的 时 间 里 ,中 国 互 联网 从 无 到 有 ,从 弱 到 强 , 互 联网 产业 迅速 崛起 。 人 们 从 
一 无 所 知 到 无 所 适 从 ,移动 社交 网 络 在 中 国 开 始 以 迅猛 的 速度 发 展 。 中 国 互 联网 络 信息 中 
心 CCNNIC) 发 布 的 报告 显示 ,截至 2011 年 12 月 月 底 , 我 国 网 民 数量 高 达 5. 17 亿 , 全 年 新 
增 网 民 5580 万 。 其 中 ,手机 网 民 的 规模 达到 3. 56 亿 , 占 网 民 总 体 比例 的 69. 3%。 使 用 手 
机 社交 的 用 户 年 增长 率 为 35.7%, 成 为 增长 率 最 高 的 3 个 应 用 之 一 。 各 大 社交 网 站 在 大 力 
推进 移动 社交 网 络 的 同时 ,不 断 开发 新 的 应 用 模式 ,实现 了 多 人 游戏 与 视频 ,应 用 服务 模式 
不 断 创新 ,商业 模式 不 断 完善 。 

2012 年 , 随 着 智能 手机 的 不 断 普及 ,移动 互联 网 的 创业 高 潮 即 将 到 来 。 由 此 可 见 , 移 动 
互联 网 的 发 展 是 随 着 时 代 的 进步 和 人 们 对 于 新 技术 的 需求 而 产生 并 不 断 发 展 的 ,移动 互联 
网 络 深刻 地 改变 了 人 们 的 生活 。 与 此 同时 ,人 们 对 于 移动 社交 网 络 的 需求 也 促进 了 移动 互 
联网 络 在 技术 与 应 用 等 各 个 方面 的 发 展 。 

社交 网 络 (Social Networking Services) 是 一 种 新 型 的 网 络 服务 ,用 户 可 以 参与 其 中 , 交 
流 、 合 作 、 分 享 、 发 布 .传播 信息 ,进而 组 成 一 种 在 线 虚拟 社区 (图 10-1)。 最 近 几 年 , 随 着 
Web 2.0 的 快速 发 展 和 互联 网 的 普及 ,社交 网 络 呈 现 爆发 式 增长 ,从 早期 的 UGC 内 容 的 论 
坛 \ 博 客 等 网 站 到 最 近 的 SNS、 微 博 等 新 兴 服 务 ,社交 网 络 正 在 成 为 互联 网 时 代 的 新 宠儿 ， 
并 且 极 大 地 改变 了 人 们 获取 信息 和 移动 互联 网 的 使 用 方式 。 

社交 网 络 在 提供 一 种 在 线 的 信息 发 布 和 
传播 平台 的 同时 ,也 在 深刻 地 影响 着 人 们 的 
现实 社会 。2011 年 以 来 ,中 东北 非 的 动乱 充 
分 地 显示 了 社交 网 络 作为 一 种 互联 网 服务 其 
影响 范围 已 经 远 远 超出 了 互联 网 的 界限 ,而 
深入 到 人 们 的 政治 生活 中 。 而 不 断 出 现在 社 
交 网 络 中 的 各 种 企业 用 户 ,标志 着 企业 团体 
已 经 注意 到 这 一 新 生 事 物 , 并 且 敏 捷 地 试图 
通过 社交 网 络 中 的 新 方式 与 用 户 交 流 沟通 其 
至 达成 贸易 。 可 以 预测 , 随 着 社会 化 浪潮 的 
演进 ,社交 网 络 一 定 会 改进 整个 商业 生态 
系统 。 

图 10-1 SNS 网 络 图 从 我 国 目前 的 形式 来 看 ,改革 开放 30 年 
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的 发 展 成 果 使 得 人 民 的 物质 财富 急剧 增加 ,对 于 精神 文化 生活 的 需求 逐渐 抬头 。 这 一 趋势 
和 互联 网 的 普及 运动 相 重合 的 结果 就 是 社交 网 络 这 一 新 生 事物 在 中 国 的 大 规模 兴起 。 目 前 
国外 Facebook 的 用 户 数 已 经 突破 9 亿 ,Twitter 的 用 户 数 已 经 达到 6 亿 , 国 内 的 新 浪 微 博 和 
腾讯 微 博 也 都 达到 了 3 亿 和 4 亿 的 规模 。 微 博 的 出 现 ,大 大 降低 了 互联 网 的 门槛 ,使 得 发 布 
信息 、 传 播 信息 变 得 平等 而 开放 ,信息 的 传播 被 极 大 地 加 快 , 微 博 正在 成 为 人 的 另 一 种 生存 
方 武 : 

截至 目前 ,国内 已 经 有 几 百 家 媒体 电台 和 几 千 家 各 类 政府 和 商业 组 织 进 驻 ,通过 微 博 倾 
听 民 意 ,调查 用 户 需 求 ,甚至 作为 客户 服务 的 主 战场 ,都 已 经 成 为 当前 微 博 的 常态 。 而 在 这 
种 情况 下 ,企业 界 的 社会 化 营销 、 社 会 化 的 市 场 运 作 等 新 式 的 企业 运行 方式 也 纷纷 出 现 。 微 
博 不 仅 成 为 人 们 传播 信息 发 布 信息 的 平台 ,而 且 成 为 企业 获取 用 户 、 挖 掘 用 户 、 维 持 用 户 、 服 
务 用 户 的 一 个 平台 。 

在 中 国 , 截 至 2010 年 8 月 ,已 有 59 个 政府 部 门 在 新 浪 注册 政府 微 博 , 其 中 公安 微 博 
40 多 个 ,日渐 兴起 的 “政府 微 博 ”成 为 政府 在 新 时 期 加 强 和 创新 社会 管理 的 有 益 尝 试 ,其 正 
不 断 尝 试用 这 一 新 的 方式 搭建 起 与 公众 的 互动 平台 ,达到 沟通 倾听、 辅助 决策 的 目的 。 
2010 年 在 惩治 腐败 ,城市 建设 、 突 发 事件 .爱心 传播 等 许多 热点 问题 上 ,中 国 网 民 都 通过 微 
博 参 与 其 中 。 微 博 的 迅速 发 展 也 使 其 迅速 成 为 备 受 各 方 关注 的 奥 论 新 阵地 。 


10.1 移动 社交 网 络 发 展 情况 
10.1.1 移动 社交 网 络 发 展现 状 


美国 "传播 学 之 父 ” Wilbur Lang Schramm 认为 ,传播 不 是 全 部 通过 言词 进行 的 ,任何 非 
语言 的 传播 都 携带 着 信息 ,而 这 些 信息 都 有 可 能 刺激 所 有 的 感官 并 使 交流 的 对 方 同 这 种 全 
身心 的 交流 相 呼 应 。 移 动 社交 网 络 就 是 在 语言 环境 之 外 的 一 种 非 语 言 沟 通 与 交流 平台 。 它 
是 一 个 开放 性 的 社会 化 网 络 平台 ,能 够 利用 移动 通信 设备 的 移动 性 、 便 捷 性 、 及 时 性 等 各 方 
面 的 优势 ,让 用 户 随时 随地 进行 沟通 与 交流 。 它 能 够 为 用 户 提 供 实 时 定位 和 信 源 确认 等 服 
务 ,增加 移动 社交 网 络 平台 的 可 信和 度 。 从 目前 我 国 移动 社交 网 络 的 发 展 状况 来 看 , 它 以 现实 
的 人 际 关系 为 基础 ,使 用 范围 较为 广泛 ,但 是 在 使 用 过 程 中 , 受 社交 网 络 自身 因素 和 人 们 心 
理 因素 的 限制 , 它 也 存在 着 社交 从 众 心理 和 社交 疲劳 等 现象 。 

1. 用 户 的 广泛 性 

麦克 卢 汉 (Marshall McLuhan) 认 为 “任何 媒介 对 个 人 和 社会 的 影响 ,都 是 由 于 新 的 尺 
度 产生 的 ,我 们 的 任何 一 种 延伸 ,都 要 在 我 们 的 事物 中 引入 一 种 新 的 尺度 ”。 与 以 往 传统 的 
网 络 传播 模式 比较 ,移动 社交 网 络 将 用 户 的 个 性 化 需求 作为 新 的 尺度 。 以 用 户 的 个 性 化 需 
求 为 蓝本 ,针对 不 同 的 用 户 , 采 用 新 的 观点 和 尺度 ,建立 因 人 而 异 的 个 性 化 信息 表达 ,从 而 也 
使 得 其 在 用 户 群体 中 得 到 广泛 应 用 。 

移动 社交 网 络 使 用 范围 的 广泛 性 涵盖 两 个 方面 的 含义 : 内 容 的 广泛 性 与 地 域 的 广泛 
性 。 所 谓 内 容 的 广泛 性 是 指 移动 社交 网 络 中 的 内 容 , 包 括 内 容 的 形式 多 样 化 ,能 够 充分 满足 
不 同 用 户 的 多 样 化 需求 。 移 动 社 交 网 络 充分 发 挥 了 网 络 媒体 的 资源 优势 与 形式 的 优势 , 利 
用 其 开放 性 平台 .在 形式 上 涵盖 了 音频 、 视 频 . 图 片 和 文字 等 各 种 形式 ,给 用 户 留 下 了 深刻 的 
印象 。 内 容 的 广泛 性 是 伴随 着 信息 通信 技术 的 不 断 完善 与 发 展 和 人 们 对 于 社交 网 络 的 要 求 
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提升 而 逐步 发 展 起 来 的 , 它 是 移动 社交 网 络 吸引 用 户 、 留 住 用 户 所 必须 具备 的 条 件 之 一 。 

所 谓 地 域 的 广泛 性 是 指 移动 社交 网 络 里 的 人 际 交 往 和 社会 交往 打破 了 时 间 与 空间 的 限 
制 ,通过 各 种 移动 设备 ,能 够 在 较 广 的 范围 里 与 他 人 保持 沟通 与 联系 。 移动 社交 网 络 最 大 的 
优势 在 于 其 移动 性 可 以 使 人 们 在 内 容 、 地 域 等 方面 达到 较为 广泛 的 接触 面 ,能 够 消解 物理 中 
介 所 产生 的 差距 ,达到 随时 随地 的 “人 -机 ”互动 和 “人 -人 ”互动 ,消解 空间 距离 。 移 动 社交 网 
络 的 广泛 使 用 表明 它 已 经 扩散 到 大 众 中 间 ,具有 浓厚 的 草根 气息 。“ 草 根性 具有 强大 的 凝聚 
力 ,更 具有 强大 的 生命 力 和 独立 性 ”。 移 动 社交 网 络 为 人 们 创立 了 一 个 平等 .自由 的 话语 空 
间 , 利 用 其 便捷 的 转发 与 对 话 功能 ,可 以 使 更 多 的 人 能 够 通过 移动 终端 与 他 人 保持 联系 , 提 
供 最 新 的 信息 ,创作 丰富 的 内 容 , 同 时 以 更 快 的 速度 传 向 世界 各 地 。 

2. 用 户 易 产生 从 众 心理 

在 这 个 信息 爆炸 的 时 代 , 人 们 接收 与 认 知 信息 的 渠道 不 断 增多 ,各 种 正面 .负面 的 信息 
铺天盖地 ,每 一 种 言论 都 代表 一 方 的 利益 和 态度 ,对 于 一 些 信息 ,人 们 无 从 判断 真 假 与 对 错 ， 
也 无 法 全 面 而 准确 地 认 知 各 种 社会 事件 ,所 以 在 一 定 程 度 上 也 只 能 参考 一 些 他 人 信息 ,从 众 
心理 和 行为 便 应 运 而 生 。 它 是 信息 社会 的 产物 ,但 也 是 人 们 对 未 知事 物 进 行 判断 的 一 种 客 
观 需求 。 在 移动 社交 网 络 的 发 展 中 ,用 户 在 选择 和 发 表 言论 等 方面 都 存在 一 定 的 从 众 心理 。 

(1) 选择 的 从 众 性 。 在 人 类 社会 向 现代 化 迈进 的 过 程 中 ,现代 社会 的 紧张 与 压力 拉 远 
了 人 际 之 间 的 距离 ,人 们 渴望 自由 和 相对 独立 的 空间 ,希望 自己 和 哪怕 是 最 亲近 的 人 之 间 都 
保持 一 定 的 距离 ,人 与 人 之 间 的 关系 疏远 ,人 际 交往 淡化 ,人 们 最 终 被 淹没 在 大 众 传播 的 浪 
潮 里 。 但 是 ,很 多 人 并 不 甘于 被 潭 没 , 正 如 社会 心理 学 家 戈 夫 曼 所 言 , 社 会 就 像 一 个 舞台 ， 
人 都 是 演员 ,每 个 人 都 在 有 意 或 无 意 地 通过 自我 表现 给 别人 留 下 印象 。 所 以 ,有 时 为 了 与 他 
人 保持 一 致 ,与 社会 保持 一 致 ,人 们 在 选择 时 , 便 会 较 多 地 考虑 你 是 怎么 想 ,他 会 怎么 看 ,一 
般 都 会 采取 与 社会 大 多 数 人 相同 或 相似 的 态度 ,而 不 会 选择 与 社会 背道而驰 。 因 此 ,选择 的 
从 众 心理 自然 而 然 便 会 产生 。 

(2) 言论 的 相似 性 。 用 户 的 言论 是 受 其 认 知 和 情感 因素 影响 的 ,从 理论 上 来 看 ,不 同 用 
户 对 于 同一 事物 的 言论 是 存在 差异 的 。 卡 罗 尔 。E. 伊 萨 德 (Carroll E. Izard) 认 为 ,想法 或 
态度 是 一 种 时 间 有 限 的 特定 的 情感 过 程 ,从 几 秒 到 几 小 时 ,从 温和 到 激烈 都 有 可 能 。 除 此 之 
外 ,人 们 还 会 表现 出 一 些 情 感 的 特征 ,也 就 是 在 与 他 们 的 接触 中 倾向 于 表现 出 的 某 种 特定 的 
情感 。 在 移动 社交 网 络 中 。 受 时 效 性 和 移动 设备 的 限制 ,用 户 在 与 人 交往 的 过 程 中 ,往往 较 
少 采用 理性 的 头脑 去 分 析 和 判断 ,对 于 平台 中 的 信息 只 是 简单 的 过 滤 ,并 没有 进行 深入 的 分 
析 和 思考 ,这 使 得 发 表 的 言论 比较 浅显 ,而 为 了 不 被 别人 发 现 自己 的 言论 比较 浅显 ,很 多 人 
会 随 别人 的 意见 和 态度 而 发 表意 见 , 并 不 完全 体现 真实 的 自我 思维 与 态度 。 这 种 较为 关注 
自身 形象 的 信息 传播 方式 造成 用 户 不 愿 主 动 表 达 出 自我 真实 想法 ,而 是 与 社会 大 众 的 态度 
保持 一 致 。 因 此 ,言论 的 从 众 心 理 也 自然 就 出 现 了 。 从 众 心 理 是 一 种 较为 普遍 的 心理 和 行 
为 ,这 主要 是 因为 人 们 在 自我 意识 方面 存在 一 定 的 弱化 现象 ,在 思维 方面 缺乏 独立 思考 的 能 
力 。 个 体 意识 不 强 。 在 面 对 意 识 判断 与 抉择 的 过 程 中 存在 犹 驳 不 决 的 现象 和 徘徊 心理 ,无 
法 根据 内 心 最 真实 的 想法 做 出 理性 客观 的 判断 ,这 不 仅 会 影响 社交 网 络 的 有 效 性 ,同时 也 在 
一 定 程 度 上 会 影响 用 户 参与 社交 网 络 交流 的 积极 性 与 主动 性 。 所 以 在 社交 网 络 发 展 的 过 程 
中 ,应 该 尽量 避免 出 现 用 户 的 从 众 现象 , 尽 可 能 鼓励 用 户 发 表 内 心 真实 的 想法 ,自主 表达 
言论 。 
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(3) 用 户 易 产生 社交 疲劳 。 人 们 除了 需要 应 对 现实 社会 中 的 难题 之 外 ,同时 还 要 应 对 
网 络 中 层出不穷 的 各 种 问题 ,在 人 际 交往 方面 也 是 如 此 。 人 们 在 通过 移动 互联 网 进行 人 际 
关系 的 开拓 与 维系 外 ,同时 也 要 面 对 现 实 社会 中 人 际 关系 的 建立 与 维系 ,这 都 需要 花费 大 量 
的 时 间 与 精力 ,用 户 易 产 生 社 交 疲 劳 。 

埃 瑟 。 戴 森 说 :“ 数 字 化 世界 是 一 片 训 新 的 疆土 ,可 以 释放 出 难以 形容 的 生产 能 量 ,但 
它 也 可 能 成 为 恐怖 主义 和 江湖 巨 骗 的 工具 ,或 是 弥 天 大 谎 和 恶意 中 伤 的 大 本 营 。" 作 为 一 种 
人 际 沟通 工具 ,移动 社交 网 络 的 影响 力 是 众所周知 的 , 它 对 人 们 的 生活 方式 及 思维 方式 都 产 
生 了 较 大 的 影响 ,在 为 人 们 提供 各 种 便利 的 同时 ,也 会 被 各 种 垃圾 信息 、 虚 假 信息 所 埋没 , 严 
重 影响 了 人 们 获取 信息 的 信 度 与 效 度 , 使 人 们 容易 产生 视觉 疲劳 ,人 们 对 于 社交 网 络 的 信任 
程度 与 依赖 程度 降低 。 另 外 ,移动 社交 网 络 中 过 多 的 利益 导向 性 使 得 社交 网 络 中 除了 自己 
需要 的 信息 外 ,还 有 较 多 元 杂 的 内 容 影响 个 人 需求 的 满足 ,用 户 可 能 需要 较 多 的 时 间 才 能 达 
到 维系 人 际 交往 的 目的 ,无 法 使 预期 效果 最 有 效 实现 ,使 用 户 产生 疲惫 的 感觉 , 玻 于 移动 式 
的 人 际 交往 。 

从 移动 社交 网 络 的 发 展 状况 来 看 ,虽说 移动 SNS 用 户 人 数 仍 呈 增长 趋势 ,但 由 于 内 容 
的 易 用 性 和 丰富 性 不 够 .移动 网 络 的 性 能 不 稳定 .应 用 收费 模式 设置 不 合理 等 原因 ,移动 社 
交 网 络 面临 较 大 的 发 展 瓶颈 。 所 以 移动 社交 网 络 的 发 展 必须 结合 中 国 的 特色 和 用 户 的 实际 
需求 ,打破 原 有 传统 的 限制 与 约束 ,力求 创新 ,只 有 这 样 才能 使 分 散 的 社交 网 络 用 户 进一步 
集中 ,得 到 较 快 的 发 展 。 


10.1.2 移动 社交 网 络 发 展 方向 


我 国 的 移动 社交 网 络 要 想 走 得 更 远 、 走 得 更 快 ,就 必须 进行 资源 整合 。 移 动 社交 网 络 的 
整个 设计 、 应 用 、 商 业 模 式 等 ,结合 中 国 的 文化 要 素 , 进 行 创新 性 设计 ,突出 文化 特色 。 目 前 
我 国 的 移动 社交 网 络 在 发 展 过 程 中 大 多 是 模仿 国外 社交 网 络 的 架构 、 应 用 等 进行 操作 , 虽 有 
一 些 创 新 性 的 应 用 方式 和 商业 模式 ,但 从 本 质 上 和 长 远 发 展 的 角度 来 看 , 它 缺少 文化 力 。 国 
外 的 移动 社交 网 络 之 所 以 能 够 得 到 较 快 的 发 展 ,很 重要 的 一 个 因素 是 它 是 应 时 代 和 公众 的 
需求 而 产生 的 , 它 体 现 了 人 们 对 于 社会 交往 的 一 种 需求 心态 ,有 强大 的 文化 力 。 此 外 ,应 用 
设计 并 不 是 越 新 或 越 全 面 越 好 ,最 重要 的 是 要 与 用 户 的 心理 特征 和 社会 交往 的 需求 相 结合 ， 
要 为 用 户 提供 其 最 需要 的 社会 交往 信息 .并 以 最 为 快捷 的 方式 展现 ,只 有 这 样 才 能 确保 社会 
公众 对 移动 社交 网 络 的 认可 与 关注 。 

移动 社交 网 络 的 发 展 要 掌握 公众 的 媒介 动机 和 社交 的 需求 。“ 使 用 与 满足 ”理论 认为 ， 
用 户 在 接触 媒介 的 过 程 中 有 一 定 的 需求 动机 或 目的 ,希望 从 中 得 到 满足 ; 由 于 社会 环境 和 
媒介 是 不 断 变 化 的 ,人 们 的 动机 也 是 不 断 变化 的 ,需要 不 同 的 内 容 在 不 同 的 方面 使 用 户 得 到 
满足 。 因 为 用 户 环 境 、 媒 介 内 容 等 整体 的 社会 背景 影响 用 户 媒 介 行为 ,用 户 媒 介 行 为 的 形成 
与 其 社会 状况 与 需求 .大 众 媒介 结构 产品 有 和 较 大 的 联系 ,只 有 用 户 有 媒介 和 需求 和 动机 ,社会 
有 对 应 的 媒介 结构 与 产品 时 才能 产生 用 户 的 媒介 行为 。 用 户 媒介 行为 又 可 以 对 他 们 给 予 反 
馈 ,进而 促进 媒介 平台 的 发 展 。 任 何 一 种 网 络 平台 或 媒介 平台 存在 的 依据 是 市 场 需求 ,存在 
的 目的 是 满足 用 户 需 求 , 而 非 简单 体现 平台 的 技术 与 应 用 等 。 现 代 认 知心 理学 认为 ,人 们 的 
行为 并 不 是 一 个 对 外 部 刺激 做 出 的 纯粹 被 动 的 反应 。 主 体 的 选择 ,加工 在 受众 与 大 众 传媒 
之 间 起 着 十 分 重要 的 作用 ,这 种 作用 的 发 挥 与 受众 个 体 的 认 知 结构 密切 相关 。 因 此 人 们 获 
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得 信息 的 过 程 在 于 新 的 信息 与 主体 已 有 认 知 之 间 的 相互 联系 与 作用 ,两 者 的 互动 决定 着 现 
实生 活 和 信息 传播 活动 中 人 们 学 习 过 程 的 本 质 , 这 一 本 质 蕴 涵 在 主体 认 知 结构 的 不 断 扩 展 、 
分 化 和 重组 的 过 程 中 ,而 认 知 结构 本 身 正 是 通过 这 一 过 程 得 到 更 新 ,从 而 为 人 们 进一步 的 认 
知 实践 提供 了 新 的 基础 。 伴 随 着 移动 互联 网 的 快速 发 展 ,移动 社交 网 络 的 发 展 并 不 能 再 仅 
仅 局 限于 原 有 的 商业 模式 和 应 用 平台 , 它 必 须 与 社会 环境 和 个 人 需求 进行 全 面 的 结合 ,在 准 
确认 知 社会 客观 媒体 环境 与 发 展 环境 的 基础 上 ,及 时 掌握 公众 的 媒介 动机 和 社会 交往 的 需 
求 ,只 有 这 样 才 能 使 得 移动 社交 网 络 不 断 创新 ,在 竞争 中 处 于 优势 地 位 ,获得 全 面 发 展 。 在 
互联 网 和 物 联 网 快速 发 展 的 今天 ,移动 社交 网 络 逐 步 向 人 工 智能 的 方式 转变 ,人 们 通过 移动 
社交 网 络 可 以 根据 自身 此 时 、 此 地 、 此 物 的 切身 愿望 反馈 和 获取 信息 。 如 图 10-2 所 示 为 未 
来 移动 社交 网 络 示 意图 。 
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图 10-2 移动 社交 网 络 示 意图 


10.2 社交 网 络 基础 理论 和 商业 模式 


10.2.1 社交 网 络 相 关 理 论 

1.“ 六 度 分 隔 ” 理 论 

1967 年 ,美国 哈佛 大 学 的 心理 学 教授 Stanley Milgram(1933 一 1984) 想 要 描绘 一 个 连 
接 人 与 社区 的 人 际 联系 网 ,做 过 一 次 连锁 信 实 验 : 他 将 一 封 信件 随机 寄 给 了 位 于 美国 中 西 
部 内 布 拉 斯 加 州 的 160 个 人 , 信 中 印 有 千里 之 外 波士顿 的 一 名 普通 股票 经 纪 人 的 名 字 ,米尔 
格拉 姆 在 信 中 要 求 收 信 人 将 这 封 信 通 过 自己 的 朋友 寄 给 收 信 人 ,结果 大 多 数 人 只 经 过 了 五 
六 个 步骤 ,这 封 信 就 最 终 到 达 了 这 个 股票 经 纪 人 的 手中 。 结 果 发 现 了 “六 度 分 隔 ” 现 象 。 六 
度 分 隔 现象 (又 称 为 “小 世界 现象 ") ,可 通俗 地 阐述 为 :“ 你 和 任何 一 个 陌生 人 之 间 所 间隔 的 
人 不 会 超过 6 个 ,也 就 是 说 ,最 多 通过 6 个 人 你 就 能 够 认识 任何 一 个 陌生 人 。” 

“六 度 分 隔 ” 说 明了 社会 中 普遍 存在 的 “ 弱 纽 带 ”. 但 是 却 发 挥 着 非常 强大 的 作用 。 有 很 
多 人 在 找 工作 时 会 体会 到 这 种 弱 纽 带 的 效果 。 通 过 弱 纽 带 人 与 人 之 间 的 距离 变 得 非常 “ 相 
近 ”。 这 个 理论 在 社交 网 络 中 也 被 广泛 应 用 ,最 典型 的 是 扎 克 伯 格 (Mark Zuckerberg) 创建 
的 Facebook 网 络 产品 。 通 过 同学 圈 、 朋 友 圈 、 社 会 圈 、 同 事 圈 等 可 以 在 6 个 人 内 找到 要 找 的 
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人 ,绝对 没有 联系 的 A 与 B 是 不 存在 的 。 网 络 更 加 缩短 了 空间 、 拉 近 了 距离 。 

2. 弱 关 系 、 强 关系 

马克 。 格拉 诺 维特 在 1973 年 发 表 的 论文 中 指出 : 在 传统 社会 ,每 个 人 接触 最 频繁 的 是 
自己 的 闲人、 同学、 朋友、 同事 等 ,这 是 一 种 十 分 稳定 的 然而 范围 有 限 的 社会 关系 ,这 是 一 种 
“ 强 关系 ”; 同时 ,还 存在 另外 一 类 相对 于 前 一 种 社会 关系 较 浅 ,然而 却 是 更 为 广泛 的 社会 关 
系 , 格 兰 诺 维特 把 后 者 称 为 " 弱 关 系 ”。 

研究 发 现 : 其 实 与 一 个 人 的 工作 和 事业 关系 最 密切 的 社会 关系 并 不 是 “ 强 关 系 ”, 而 常 
常 是 “ 弱 关系 ”。“ 弱 关系 ”虽然 不 如 “ 强 关系 ”那样 坚固 (金字 塔 ), 却 有 着 极 快 的 、 可 能 具有 低 
成 本 和 高 效能 的 传播 效率 。 

事实 上 ,在 信息 的 扩散 传播 方面 ,“ 弱 关系 ”起 着 同样 的 作用 。 一 个 人 的 亲朋 好 友 圈 子 里 
的 人 可 能 相互 认识 ,因此 ,在 这 样 的 圈子 中 ,他 人 提供 的 交流 信息 重复 度 高 。 比 如 ,我 从 这 个 
朋友 或 亲戚 听 到 的 ,可 能 早已 经 在 另 一 个 朋友 那里 听 说 了 ,而 他 们 之 间 也 都 相互 交谈 过 此 话 
题 。 日 常生 活 中 不 乏 这 样 的 事例 。 

弱 关 系 在 我 们 与 外 界 交流 时 发 挥 了 关键 的 作用 ,为 了 得 到 新 的 信息 ,必须 充分 发 挥 弱 关 
系 的 作用 。 这 些 弱 关系 ,或 是 熟人 ,都 是 我 们 与 外 界 沟 通 的 桥梁 ,不 同 地 方 的 人 通过 弱 关 系 
可 以 得 到 不 同 的 信息 。 最 亲近 的 朋友 可 能 生活 圈子 和 你 差不多 ,你们 的 生活 几乎 完全 重合 。 
而 那些 久 不 见面 的 人 ,他 们 可 能 掌握 了 很 多 你 并 不 了 解 的 情况 。 只 有 这 些 “ 微 弱 关系 ”的 存 
在 ,信息 才能 在 不 同 的 圈子 中 流传 。 弱 关系 的 威力 正在 于 此 。 

强 连接 关系 通常 表明 行动 者 彼此 之 间 具 有 高 度 的 互动 ,在 某 些 存在 的 互动 关系 形态 上 
较 亲 密 , 因 此 , 透 过 强 关 系 所 产生 的 信息 通常 是 重复 的 ,容易 自 成 一 个 封闭 的 系统 。 网 络 内 
的 成 员 由 于 具有 相似 的 态度 ,高 度 的 互动 频率 通常 会 强化 原本 认 知 的 观点 而 降低 了 与 其 他 
观点 的 融合 , 故 认为 在 组 织 中 强 关系 网 络 并 不 是 一 个 可 以 提供 创新 机 会 的 渠道 。 

事实 上 , 强 弱 关 系 并 不 仅 由 人 与 人 之 间 的 关系 类 型 决定 ,还 会 由 六 度 理论 的 度数 决定 。 
可 以 理解 的 是 : 1 度 关系 肯定 要 比 2 度 关系 强 。 此 外 ,如 果 在 SNS 中 , 强 弱 关系 还 可 能 会 根 
据 建立 关系 的 依据 来 决定 , 同 爱 好 / 同 兴趣 、 同 群 组 / 同 圈子 . 同 应 用 ,这 类 关系 相对 较 弱 ,但 
同一 类 关系 的 交集 越 多 ,关系 则 可 能 会 越 强 。 

3. 贝 肯 数 

贝 肯 数 是 基于 “六 度 分 割 ?理论 演进 而 来 的 。 贝 肯 是 好 莱 坞 的 一 名 普通 演员 ,不同 于 马 
龙 ， 白 兰 度 这 样 的 大 腕 , 贝 肯 在 好 莱 坞 电影 中 从 来 都 是 以 配角 的 身份 出 现 , 他 与 当时 好 莱 坞 
的 影视 明星 发 生 联 系 所 需要 的 中 间 人 数量 即 为 “ 贝 肯 数 "。 弗 吉 尼 亚 大 学 一 个 实验 室 曾 为 约 
25 万 上 过 银幕 的 男女 演员 计算 了 他 们 的 “平均 贝 肯 数 ”, 研 究 发 现 ,无 论 是 历史 上 贝 肯 数 最 
低 的 演员 罗 德 .斯 泰 格 尔 , 还 是 一 个 名 不 见 经 传 的 小 演员 ,他 们 的 贝 肯 数 都 在 2.6 一 3 之 间 ， 
并 且 相 差 十 分 微小 。 

这 一 发 现 说 明 , 其 实 你 要 想 进 入 网 络 的 中 心 , 并 不 一 定 要 成 为 大 人 物 ,即使 成 为 一 个 “ 永 
不 退场 ”的 配角 也 可 以 非常 接近 网 络 的 中 心 ,你 和 中 心 人 物 的 距离 其 实 可 以 近 到 忽略 不 计 ， 
因为 那 不 是 一 个 物理 距离 ,而 只 是 一 个 连接 度 的 问题 。“ 贝 肯 数 ”的 发 现 还 说 明 要 想 阻 断 一 
个 网 络 和 另 一 个 网 络 的 连接 (比如 让 马龙 ， 白兰 度 永远 和 某 个 导演 无 法 接触 到 ) ,隔离 “ 贝 
肯 ” 这 样 的 高 连接 性 人 物 就 可 以 了 。 同 样 ,一 个 网 络 社区 的 崩溃 ,其 实 不 会 因为 多 少 普通 用 
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户 流失 而 发 生 , 但 几 个 节点 用 户 的 流失 ,就 会 造成 骨 溃 。 有 趣 的 是 ， 贝 肯 ” 在 哈佛 大 学 的 学 
生 中 被 当 作 一 种 “比拼 记 人 名 ”的 游戏 , 即 背 出 和 “ 贝 肯 ”合作 过 的 明星 ,当然 这 个 游戏 也 可 以 
把 * 贝 肯 ” 换 成 其 他 领域 里 的 某 个 高 连接 者 。 


4. 顿 巴 数 
“ 顿 巴 数 ? 是 英国 牛津 大 学 人 类 学 教授 罗 宾 。 顿 巴 (Robin Dunbar) 在 1992 年 的 一 项 研 
究 成 果 。 


根据 顿 巴 教授 的 研究 ,人 类 的 社会 结构 表现 为 : 5 人 左右 的 亲密 接触 圈 ; 12 一 15 人 的 
同情 圈 , 即 ,如 果 这 一 圈 里 有 人 痛苦 ,我 们 也 会 伤心 ; 50 人 左右 的 群落 , 即 经 常 一 起 生活 ,一 
起 行动 的 人 (已 经 有 限定 在 这 一 人 数 内 的 社交 网 络 工具 出 现 ); 150 人 左右 的 氏族 , 即 遵从 
共同 仪式 的 人 ; 500 人 左右 的 部 落 , 即 拥有 同 种 语言 的 人 (其 实在 现代 社会 ,这 里 的 语言 有 时 
只 是 指 一些 经 常 交流 的 人 之 间 约 定 俗 成 的 词语 和 概念 ,外 人 第 一 次 听 到 不 能 理解 ); 5000 人 左 
右 的 群落 , 即 有 共同 文化 的 人 。 按 照 顿 巴 数 的 同心 圆 模 型 , 当 社 会 结构 的 人 数 超过 150 人 
时 ,相互 间 的 互动 和 影响 就 会 减少 很 多 ,只 能 靠 共同 的 语言 来 维系 ,而 当 人 数 上 升 到 5000 人 
左右 时 ,维系 社会 结构 则 只 能 依靠 共同 的 文化 。 


10.2.2 社交 化 商业 模式 


互联 网 是 虚拟 世界 和 现实 世界 的 桥梁 ,在 互联 网 上 将 现实 生活 中 人 与 人 之 间 的 关系 建 
立 起 来 。 互 联网 的 发 展 为 社交 网 络 的 发 展 葛 定 了 基础 ,社交 网 络 的 发 展 同时 也 让 互联 网 的 
关系 网 越 来 越 复 杂 , 在 这 种 情况 下 ,Facebook 创始 人 马克 。 扎 克 伯 格 提 出 了 社交 图 谱 的 概 
念 ,因此 ,也 让 他 的 网 站 一 举 成 名 。 不 论 是 国外 的 Facebook .Twitter; 还 是 中 国 的 微 博 、 开 
心 网 、 微 信 等 基于 互联 网 的 社交 网 络 已 经 深入 人 心 ,IT 产业 步 人 以 社交 网 络 为 主 的 关键 
时 刻 。 

社交 网 络 的 结构 主要 由 以 下 4 个 方面 组 成 : 用 户 、 内 容 、 社 会 网 络 和 工具 。 这 4 个 方面 
相辅相成 、 彼 此 依赖 ,但 不 可 否认 ,以 数据 为 载体 的 内 容 是 这 个 结构 的 核心 。 这 是 因为 用 户 
因 内 容 分 享 而 连接 ,工具 因 内 容 传播 而 存在 ,网 络 因 内 容 众多 而 产生 。 社 交 网 络 每 天 吸引 着 
数 亿 的 用 户 在 各 个 社交 网 络 平台 上 发 布 自己 的 状态 : 心情 .位 置 . 爱 好 等 。 通 过 对 这 些 规模 
化 的 海量 大 数据 分 析 , 可 以 从 不 同 用 户 分 类 、 用 户 行为 以 及 人 际 关 系 方面 获得 用 户 规律 和 预 
测 分 析 。 通 过 这 些 用 户 行为 分 析 , 可 以 与 用 户 之 间 进 行 良好 互动 .也 可 以 为 用 户 提 供 很 多 需 
要 的 信息 和 服务 。 企 业 必 须 重视 并 思考 这 种 全 新 的 互动 方式 带 来 的 积极 意义 和 无 限 机 遇 。 

哈佛 商学 院 副教授 安德鲁 。 麦 卡 菲 于 2006 年 首先 提出 “企业 2. 0" 概 念 。 他 认为 ,企业 
2.0 是 企业 自发 性 社会 化 软件 平台 ,或 者 企业 与 其 客户 、 合 作 伙伴 及 供应 商 之 间 的 自发 性 社 
会 化 软件 平台 ,社会 化 软件 正 使 ”人 机 交互 ? 变 成 ”人 人 交互 ,企业 管理 也 在 从 * 以 流程 为 中 
心 ” 向 “以 人 为 中 心 ? 转 变 。 

管理 大 师 加 里 。 哈 默 率先 提出 ,利用 互联 网 技术 催化 组 织 , 产 生 管理 变革 ; 他 坚信 ,以 
互联 网 革命 的 契机 ,将 会 衍生 出 21 世纪 新 型 管理 模式 , 那 就 是 “企业 2.0”, 它 是 以 人 为 本 ， 
真正 尊重 、 激 发 与 赞赏 人 的 创造 性 ,激情 和 勇气 ,以 企业 员工 为 核心 ,自动 自发 的 内 在 需求 ， 
共同 分 享 知识 ,协同 合作 。 

“企业 2.0” 提 出 社会 化 商业 新 生态 模式 ,将 通过 企业 社交 网 络 的 信息 中 心 根据 用 户 的 
不 同 特征 构建 相应 的 社交 圈 。 一 方面 .构建 企业 内 部 社会 化 沟通 与 协作 的 内 部 社交 圈 , 帮 助 
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企业 实现 新 型 办 公 协 同 与 知识 管理 ; 另 一 方面 ,构建 企业 合作 伙伴 和 客户 关系 协同 社交 轿 
以 及 企业 通过 电子 商务 进行 营销 的 外 部 社交 图。 建立 以 人 为 中 心 的 社交 管理 模式 ,推动 组 
织 与 文化 变革 ,激发 企业 创新 力 ,催生 企业 商业 新 生态 。 


10.3 移动 社交 网 络 数 据 处 理 架 构 


早期 的 社交 网 络 出 现在 2000 年 之 前 ,主要 以 BBSCBulletin Board System, 电 子 公告 
系统 ) ,新闻 组 等 方式 出 现 。2002 年 , 随 着 MySpace、Facebook 的 兴起 ,SNS 逐渐 流行 。 国 
际 上 流行 的 主要 社交 网 站 有 Facebook、Twitter、LinkedIn、Google 十 等 ; 国内 也 有 人 人 网 、 
开心 网 、 微 博 、 微 信 等 。 他 们 的 应 用 处 理 架 构 基 本 相似 ,以 下 将 详细 举例 说 明 。 


10.3.1 移动 社交 网 络 服务 架构 模型 


SNS 产品 核心 结构 分 为 3 层 , 自 上 而 下 分 别 是 : 用 户 层 (Customer) , 即 “ 用 户 属性 和 行 
为 描述 ”; 社区 层 (Community), 即 “用 户 群 内 部 关系 链 ”; 内 容 层 (Content), 即 “内 容 和 应 
用 ”。“ 内 容 和 应 用 ”主要 包括 : 官方 内 容 ; 用 户 插件 ; UGC( 用 户 生 成 信息 )、 互 动 游戏 、 群 
体 行为 .个 人 应 用 、Feed 等 。“ 用 户 群 内 部 关系 链 " 主 要 包括 : 用 户 关 系 、 群 关系 、 关 系 维度 
等 。“ 用 户 属性 和 行为 描述 ”主要 包括 : 基本 用 户 属性 、 扩 展 属 性 和 社区 属性 。 具 体 到 一 个 
社区 产品 模型 ,从 下 到 上 也 分 为 3 层 , 如 图 10-3 所 示 。 
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图 10-3 SNS 三 层 结构 模型 
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因数 据 -二 5 
1. 底层 一 一 用 户 属性 描述 及 行为 画像 
用 户 属性 比如 社会 属性 ,姓名 ,性 别 \ 年 龄 .职业 、 爱 好 等 属性 ,还 包括 服务 使 用 倾向 等 指 
导 属 性 。 
用 户 属 性 共 分 为 3 类 : 一 类 是 用 户 的 直接 属性 ,一 类 是 用 户 在 社区 生态 中 生存 获得 的 
属性 ,还 有 一 类 是 用 户 隐藏 的 拓展 属性 。 
用 户 属性 分 类 如 下 。 
直接 属性 : 姓名 、 年 龄 性别. 职业 .学校 .毕业 年 份 等 。 
生态 属性 : 成 长 等 级 、 称 号 .虚拟 职务 与 相应 的 权利 .角色 等 。 
拓展 属性 : 对 用 户 的 生存 数据 进行 挖掘 分 析 ,推测 出 的 适用 于 用 户 的 个 性 化 推荐 属性 。 
2. 中 间 层 一 一 用 户 群 内 部 关系 链 
用 户 群 内 部 关系 链 包 括 人 与 人 的 关系 、 人 与 群体 的 关系 ,群体 与 群体 的 关系 。 具 体 表 现 
为 : 好 友 关 系 ( 强 关系 链 ) .关注 关系 ( 弱 关 系 链 )、 同 好 关系 ( 同 专业 、 同 爱好 、 粉 丝 )、 同 事 关 
系 、 同 地 域 关系 等 。 
于 用 户 群 中 的 关系 链 连 接 了 家 庭 , 朋 友 、 同 事 、 同 学 .亲戚 、 社 群 等 来 自 不 同 资源 的 群 
体 ,彼此 的 信息 交流 和 互动 与 个 人 的 工作 生活 等 发 生 着 密切 的 关系 。 由 于 智能 手机 的 快速 
发 展 、 用 户 群 关系 的 建立 更 加 便捷 、 高 效 , 如 微 信 、 微 博 、 社 群 APP 等 。 
3. 顶层 一 一 内 容 和 应 用 
(1) 内 容 分 类 包括 官方 发 布 信息 ,比如 咨询 ,图 片 . 音 乐 、 视 频 等 官方 制作 的 内 容 ; 还 有 
用 户 个 人 信息 ,如 个 人 博客 、 即 时 短文 音频、 视频 、 照 片 等 由 用 户 自己 制作 的 内 容 。 
(2) 应 用 。 随 着 移动 互联 网 的 发 展 ,APP 可 以 表现 一 个 互动 游戏 或 应 用 软件 以 插件 的 
方式 与 SNS 轻 度 耦合 ,在 移动 的 平台 上 独立 运行 。SNS 中 的 APP, 要 调用 到 底层 用 户 属性 
信息 和 中 间 层 关系 链 信息 以 及 电子 支付 信息 等 。 


10.3.2 Facebook 应 用 案例 


Facebook 是 一 个 起 源 于 美国 的 虚拟 化 社交 网 络 服务 网 站 ,于 美国 时 间 2004 年 2 月 4 
日 下 午 3 点 上 线 。 截 至 2012 年 9 月 ,Facebook 拥有 超过 10 亿 活跃 用 户 , 累 积 了 11 300 亿 
个 Likes, 照 片 则 超越 2190 亿 张 ,其 中 有 170 亿 张 有 地 点 信息 用 户 可 以 创建 个 人 专 页 ,添加 
其 他 用 户 作为 朋友 并 交换 信息 ,包括 自动 更 新 及 实时 通知 对 方 等 。 

1. 产品 架构 

对 于 http://fettermansbooks. com 和 http://facebook. com 的 共同 用 户 来 说 ,此 时 
Internet 应 用 的 图 景 如 图 10-4 所 示 。 

在 一 般 的 nn 层 架 构 中 ,应 用 将 输入 (对 于 Web 来 说 ,就 是 GET、POST 和 Cookie 信息 的 
集合 ) 映 射 为 对 原始 数据 的 请 求 , 这 些 原始 数据 可 能 存在 于 数据 库 中 。 它 们 被 转换 为 内 存 中 
的 数据 ,并 通过 一 些 业务 逻辑 进行 智能 化 处 理 。 输 出 模块 将 针对 显示 对 这 些 数据 对 象 进行 
转换 , 变 成 HTML .JavaScript\CSS 等 。 这 里 ,在 图 的 顶部 ,是 运行 在 基础 设施 之 上 的 应 用 
程序 层 栈 。 在 应 用 出 现在 Facebook 平台 之 前 ,Facebook 完全 运行 在 同样 的 架构 上 。 重 
要 的 是 ,在 两 个 架构 中 ,业务 逻辑 (包括 Facebook 的 隐私 ) 实 际 上 都 是 根据 一 些 规则 来 执行 
的 ,这 些 规则 建立 在 系统 的 某 些 数 据 组 件 之 上 。 
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图 10-4 分离 的 Facebook 和 nn 层 应 用 栈 


更 大 量 的 相关 数据 意味 着 业务 逻辑 可 以 提供 更 多 个 人 定制 的 内 容 , 所 以 在 http:// 
fettermansbooks. com( 或 其 他 应 用 ) 上 浏览 书籍 、 写 书评 、 阅 读 或 购买 的 体验 ,会 被 来 自 
Facebook 的 用 户 社 会 关系 数据 加 强 和 放大 。 具 体 来 说 ,显示 朋友 的 书评 、 期 望 清 单 和 购买 
情况 将 有 助 于 用 户 的 购买 决定 ,发 现 新 的 书籍 ,或 强化 与 其 他 用 户 之 间 的 联系 。 如 果 
Facebook 的 内 部 映射 user_get_friends 可 以 由 http://fettermansbooks. com 这 样 的 其 他 外 
部 应 用 访问 ,就 会 为 这 些 原本 分 离 的 应 用 提供 强大 的 社会 关系 上 下 文 , 让 应 用 程序 不 需要 创 
建 它 自己 的 社会 关系 网 络 。 所 有 这 种 类 型 的 应 用 都 可 以 与 这 种 数据 进行 很 好 的 集成 ,因为 
开发 者 可 以 将 这 些 核 心 Facebook 映射 应 用 于 无 数 其 他 Web 应 用 ,用 户 在 这 些 应 用 里 提供 
或 消费 内 容 。 

2. 数据 存储 

在 Facebook 中 ,数据 层 采 用 了 多 种 存储 系统 ,包括 : 

(1) MySQL:; 

(2) Memcached; 

(3) HBase( NoSQL); 

(4) Hystack(for BLOBs) 。 

MySQL 和 HBase 前 面 已 经 详细 介绍 过 ,分 别 是 SQL 和 NoSQL 数据 库 。Memcached 
是 一 个 流程 的 缓存 ,被 用 作 MySQL 缓存 。Hystack 是 Facebook 开发 的 一 个 大 对 象 存储 ， 
用 来 存储 照片 .音频 、 视 频 、 邮 件 附 件 等 , 却 不 会 修改 文件 。 这 些 文件 在 Facebook 已 经 有 了 
100PB, 每 天 有 2. 5 亿 张 照片 上 传 到 Hystack 中 去 。 随 着 数据 量 的 增 大 ,Facebook 在 存储 技 
术 中 逐步 改善 性 能 ,由 于 原来 的 目录 结构 访问 需要 耗 时 长 ,改进 了 NFS 的 Handler 缓存 , 减 
少 了 输入 输出 次 数 , 耗 时 是 原来 的 1/3。 同 时 还 开发 了 Haystack, 可 以 将 若干 图 片 拼 成 一 个 
大 文件 ,索引 放 到 内 存 中 ,磁盘 可 以 一 下 定位 到 图 片 。 读 取 图 片 只 需要 一 次 输入 输出 操作 。 
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在 数据 分 析 上 ,Facebook 是 Hadoop 的 重要 使 用 者 和 共享 者 。 图 10-5 展示 了 Facebook 的 
大 数据 分 析 系 统 。Facebook 通过 HBase 和 Hadoop 来 处 理 实 时 数据 。 由 于 MapReduce 随 
机 读 取 性 能 差 , 因 此 大 量 使 用 了 HBase。HBase 是 一 个 高 性 能 、 高 可 靠 性 、 面 向 列 、 可 伸缩 
的 分 布 式 存储 系统 。 利 用 HBase 可 以 在 廉价 的 PC Server 上 搭建 起 大 规模 结构 化 存储 集 
群 。Facebook 还 开发 了 一 个 名 为 Puma 的 流 聚 合 处 理 引擎 。 如 图 10-6 所 示 为 Puma 的 流 
聚合 引擎 架构 。 
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图 10-5 Facebook 大 数据 分 析 系 统 


PTail 是 将 数据 从 文件 系统 转换 成 流 的 办 法 。 使 mw_ > 
用 检查 点 来 通知 。 数 据 流 被 转发 到 Puma 中 。Puma 。 Re Nt 
是 根据 Aggregation Key 分 区 的 ,每 个 分 区 在 内 存 中 保 ”PTail Puma3 HBase 


存 一 部 分 数据 ,并 将 数据 持久 保存 到 HBase 中 。 和 一 
般 的 流 处 理 引擎 不 同 的 是 ,Puma 还 可 以 从 HBase 读 取 


数据 ,来 完成 Join 操作 。Facebook 公司 预计 将 实时 数 A 
据 处 理 能 力 从 10 秒 多 缩减 到 5 秒 左 右 , 大 幅 提 升 处 理 ms 
性 能 。 
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3. Facebook 信息 推荐 图 10-6 Puma 流 聚 合 引擎 架构 


用 户 通 过 SNS 平台 可 以 自主 产生 内 容 , 包 括 对 内 容 进 行 浏览 .收藏 .转发 分享. 评论 、 
编辑 等 各 类 操作 产生 的 数据 ,以 及 用 户 与 用 户 之 间 通 过 关注 、 加 好 友 等 方式 留 下 的 大 量 的 、 
即时 的 .多样 化 的 数据 。 通 过 利用 数据 挖掘 技术 对 这 些 数 据 进行 挖掘 分 析 , 可 以 立体 地 勾勒 
出 用 户 的 影像 。Facebook 在 做 这 些 研 究 时 ,通常 会 为 所 有 的 内 容 进 行 加 权 , 并 最 终 计 算出 
用 户 对 内 容 的 喜好 程度 以 及 用 户 与 用 户 之 间 的 关系 权重 。 这 样 的 好 处 就 是 可 以 更 加 精准 地 
为 用 户 推 送 个 性 化 内 容 , 以 及 可 以 很 好 地 测量 出 用 户 与 用 户 之 间 的 紧密 程度 。 现 在 对 于 每 
个 用 户 而 言 ,每 天 通过 SNS 接收 的 信息 会 非常 多 ,甚至 感觉 到 有 些 顾及 不 了 。 通 过 大 数据 
分 析 , 如 果 可 以 锁定 用 户 关心 的 知识 范围 和 喜好 ,就 可 以 通过 SNS 直接 推送 ,提高 用 户 的 阅 
读 信息 量 , 同 时 也 节约 了 用 户 阅 读 时 间 , 久 而 久之 ,对 每 个 用 户 的 受益 会 更 大 。 如 图 10-7 所 
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图 10-7 用 户 浏览 信息 大 数据 分 析 图 


4. Facebook 消息 订阅 


New Feeds 信息 流 , 指 网 站 发 布 的 所 有 最 新 内 容 列 表 。 用 户 可 通过 对 目标 网 站 上 的 
News Feeds 进行 订阅 ,接收 新 发 布 的 内 容 , 如 图 10-8 所 示 。New Feeds 对 Facebook 的 发 
展 而 言 是 功 不 可 没 的 ,对 整个 SNS 行业 发 展 也 起 到 了 重要 作用 。New Feeds 并 不 是 
Facebook 发 明 的 , 却 很 好 地 应 用 在 社交 网 络 中 ,并 对 信息 沟通 与 信息 传递 提供 了 巨大 的 支 
撑 。 随 着 互联 网 行业 的 快速 发 展 , 用 户 对 个 性 化 内 容 的 诉求 越 来 越 强 烈 ,RSS 应 运 而 生 。 
RSS 约定 了 一 种 信息 共享 方式 和 数据 格式 规范 ; 用 户 可 以 事先 设 定好 过 滤 条 件 ,信息 有 更 
新 时 ,主动 从 New Feeds 信息 源 PUSH 到 用 户 面前 。 随 着 时 间 的 推移 和 技术 的 成 熟 , 必 将 
得 到 更 加 广泛 的 应 用 。 
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图 10-8 Facebook Search 的 架构 示意 图 
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随 着 用 户 之 间 关 系 的 密切 发 展 ,信息 动态 在 关系 链 之 间 的 传播 非常 重要 。 用 New 
Feeds 来 处 理 此 类 问题 是 非常 适合 的 方案 。 在 SNS 平台 上 ,用 户 可 以 默认 将 自己 的 动态 通 
过 New Feeds 传播 到 关系 链 中 ,也 可 以 等 待 朋友 的 最 新 动态 。 


10.4 移动 社交 网 络 大 数据 分 析 


事实 上 , 随 着 Facebook 等 社交 网 站 的 出 现 与 普及 ,企业 界 很 快 就 出 现 了 以 市 场 应 用 为 
导向 的 影响 力 分 析 机 构 。 但 是 由 于 普遍 没有 学 术 界 理论 的 指导 ,大 部 分 影响 力 算法 都 是 经 
验 总 结 式 , 并 没有 提出 明确 的 评价 方法 。 下 面 择 要 进行 曾 述 。 

(1) Klout 是 美国 一 家 专注 于 评价 用 户 在 社交 网 络 中 的 影响 力 的 数据 挖掘 公司 。 目 前 
已 经 可 以 追踪 用 户 在 Twitter、Facebook、LinkedIn 等 多 家 社交 网 站 上 的 数据 ,以 此 计算 用 
户 的 影响 力 大 小 。 

随 着 社交 网 站 的 崛起 ,Klout 也 在 人 们 的 现实 生活 中 发 挥 了 巨大 的 作用 。2012 年 2 月 ， 
企业 软件 公司 Salesforce 开始 引入 一 种 新 服务 : 让 客户 公司 可 以 根据 投诉 客户 的 Klout 打 
分 来 灵活 处 理 投 诉 。 对 于 那些 影响 力 大 的 客户 ,其 投诉 将 会 处 理 得 更 快 ,获得 的 服务 也 会 更 
好 。 一 家 著名 的 奢侈 品 购物 网 站 Gilt Groupe 也 开发 了 一 个 新 的 产品 : 根据 客户 Klout 的 
打分 提供 不 同 的 折扣 。Klout 计算 用 户 在 某 个 社交 网 络 中 的 影响 力 的 算法 简 述 如 下 : 真实 
覆盖 度 (True Reach) : 你 可 以 影响 多 少 人 ? 系统 过 滤 掉 了 那些 垃圾 用 户 和 僵尸 粉 , 着 眼 于 
那些 可 以 被 你 发 布 的 内 容 引 起 动作 的 用 户 。 

@ 扩散 概率 (Amplification) : 那些 人 受 你 的 影响 有 多 大 ?这 一 指标 主要 受到 转发 你 消 
息 的 人 数 和 他 们 转发 你 消息 的 频率 的 影响 。 

@ 网 络 影响 力 (Network Impact): 你 所 在 的 网 络 影 响 力 有 和 多少? 这 一 指标 主要 考虑 
你 所 在 的 社交 网 络 中 是 否 包 括 某 些 影响 力 高 的 人 。 

Klout 倾向 于 评价 一 种 绝对 影响 力 (全 局 影响 力 ), 后 来 引入 了 主题 这 个 概念 ,但 是 是 用 
类 似 人 本 计算 的 方式 来 票选 出 某 个 主题 上 影响 力 最 大 的 人 物 。 

(2) Kred 是 一 家 新 兴 的 社交 网 络 影 响 力 分 析 企 业 。Kred 基于 以 下 两 个 标准 衡量 用 户 
的 社交 影响 力 。 

Q@ 影响 力 : 能 够 激 起 他 人 行为 的 能 力 , 比 如 别人 的 转发 .回复 等 。 

@ 扩展 力 : 人 们 试图 激 起 你 行为 的 尝试 ,比如 与 别人 的 交互 .他 人 赠送 的 礼物 等 。 

相 比 Klout,Kred 做 得 更 加 精准 。Kred 基于 社区 来 识别 用 户 的 影响 力 。 其 建立 了 一 种 
按照 社区 对 不 同 话题 的 集合 影响 深度 。 他 认为 “由 真实 用 户 所 组 成 的 紧密 的 小 圈子 , 才 是 
影响 力 的 摇滚 明 星 ”。Kxred 会 根据 你 的 简介 数据 定义 社区 ,然后 为 这 个 社区 计算 一 个 集合 
影响 广度 和 深度 的 分 数 。 它 还 会 计算 你 在 你 某 个 社交 圈 中 的 排名 。 


10.4.1 社交 网 络 平台 行为 影响 分 析 模 型 


社交 网 络 用 户 影 响 力 分 析 概 率 模 型 框架 一 一 一 般 阔 值 模型 。 定 义 用 户 被 信息 影响 或 者 
称 该 用 户 被 激活 ,就 会 成 为 传播 节点 ,将 该 行为 在 社交 网 络 中 继续 传播 下 去 。 某 一 时 刻 未 被 
影响 的 用 户 节点 w 周围 已 经 有 若干 父 传播 节点 ,他们 形成 对 用 户 x 的 影响 用 户 集合 S ,集合 
中 任意 用 户 节点 VE S 都 是 在 用 户 u 关注 用 户 v 之 后 被 激活 的 。 影 响 用 户 集合 S 中 的 任意 





Ro 第 10 音 、 务 动 站 大 数 抬 解决 方案 1303 
用 户 v 均 会 以 一 定 的 概率 激活 用 户 w, 从 而 集合 S 中 的 所 有 用 户 会 形成 影响 联合 概率 
P,.(S) 而 对 用 户 w 产生 影响 ,用 户 x 被 影响 后 就 会 发 出 同样 的 行为 。 

本 节 主 要 讨论 计算 影响 用 户 集合 S 对 用 户 的 影响 联合 概率 ,对 单个 用 户 x 的 发 出 行 
为 做 出 预测 ,一 般 阔 值 模型 中 的 冰 值 9 指 用 户 的 受 影响 闽 值 . 当 P.(CS) 三 9. 时 ,可 以 预测 
用 户 x 将 会 被 父 节点 影响 ,从 而 成 为 传播 节点 ,获得 传染 性 ,可 以 将 行为 继续 传播 到 子 节点 
中 未 被 影响 的 用 户 节点 。 

根据 微 博 中 用 户 间 的 实际 影响 关系 ,显然 可 知 ,影响 联合 概率 函数 P,(S) 是 单调 的 ,如 
果 SST, 一 定 有 P.(S) 和 PCT)。 而 且 用 户 x 的 所 有 父 节点 之 间 具 有 上 比较 弱 的 联系 , 父 节 
点 对 用 户 x 的 影响 概率 可 以 看 作 是 独立 的 。 

因此 ,影响 联合 概率 可 以 被 定义 为 

P.(S) = 1 一 II. (1 一 Po) (10-1) 
式 (10-1) 中 ,P,,。 指 用 户 w 对 用 户 的 行为 影响 概率 ,也 就 是 行为 从 用 户 v 传播 到 用 户 的 
概率 。 行 为 传播 有 延迟 时 间 , 用 户 vv 发 出 行为 a 后 ,用 户 x 在 iu 的 延迟 时 间 后 被 影响 而 发 
出 同样 的 a 行为 。4 是 通过 历史 微 博 记 录 统 计 出 的 行为 从 用 户 v 传播 到 用 户 x 的 平均 延 
迟 时 间 。 用 户 v 和 用 户 w 之 间 行 为 传播 平均 延迟 时 间 定 义 如 式 (2) 所 示 
Da tla) ta)) 
tvu 一 二 

式 (10-2) 中 ,4w(a) 表 示 用 户 发 出 行为 a 的 时 间 ,A 表示 微 博 中 的 历史 行为 集合 。 

上 述 公式 中 ,假设 任意 用 户 的 所 有 父 节 点 对 该 用 户 的 影响 都 是 独立 的 , 父 节 点 对 该 用 户 
的 影响 没有 依赖 关系 ,因此 ,如 果 能 计算 任 一 父 节 点 对 该 用 户 的 影响 概率 ,就 可 以 通过 
式 (10-1) 计 算 该 用 户 受到 所 有 父 节点 的 行为 影响 联合 概率 , 即 该 用 户 发 出 同样 行为 的 概率 。 
但 在 实际 社交 网 络 中 ,还 要 考虑 动态 性 ,用 户 之 间 的 影响 概率 应 该 是 一 个 连续 时 间 函 数 。 


10.4.2 社交 网 络 单 平台 内 影响 力 分 析 


美国 的 一 家 创业 公司 Klout,2009 年 开始 研究 推 特 (Twitter) 用 户 影响 力 指 数 ,2010 年 
开始 把 影响 力 测量 产品 推 向 脸 书 (Facebook)。Klout 指数 (Klout Score) 用 于 表征 用 户 在 推 
特 和 脸 书 上 的 综合 影响 力 , 这 项 指标 介 于 [1,100] 区 间 , 反 映 了 用 户 在 推 特 和 脸 书 上 行为 的 
35 个 变量 。 图 10-9 显示 了 网 友 Cristen Perks 的 Klout 指数 和 其 品牌 。 具 体 算法 涉及 3 个 
因素 : 反映 粉丝 质量 因素 的 实际 关注 度 (True Reach); 反映 微 友 间 谈话 质量 和 传播 速度 因 
素 的 放大 概率 (Amplification Probability); 反映 用 户 的 微 博 对 网 络 粉丝 影响 因素 的 网 络 影 
响 (Network Influence) 。 

Klout 指数 已 逐渐 为 推 特 和 脸 书 用 户 接 
受 , 成 为 测试 用 户 在 推 特 和 脸 书 内 影响 力 的 准 
官方 指标 ,并 推出 若干 Klout 排行 榜 , 如 推 特 女 
士 TOP10 等 。 网 上 还 流传 提高 Klout 指数 的 b= 
秘籍 技巧 ,指导 网 友 如 何 提 高 影响 力 。 诸 如 : 
尽量 接触 重要 人 物 ,远离 草根 人 士 ; 争取 别人 
关注 你 ,而 不 是 去 注意 他 人 等 这 些 五 花 八 门 的 10-9 ”网友 Cristen Perks 的 Klout 指数 


(10-2) 
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值得 一 提 的 是 Klout 与 推 特 和 脸 书 的 合作 模式 ,是 一 种 强 强 相 容 ,优化 般配 。 推 特 和 脸 
书 把 精力 放 在 扩大 本 身 业务 方面 ,而 成 员 的 影响 力 评价 甚至 引导 成 员 如 何 提高 影响 力 的 业 
务 , 外 包 给 合作 伙伴 Klout 公司 。 

另外 一 家 公司 AtImpress, 专 注 于 开发 微 博 的 应 用 平台 ,由 9th. be 推出 “atimpress 爱 影 
响 ”, 目 前 尚 在 测试 阶段 。9th. be 曾经 发 表 过 一 些 和 数据 相关 的 微 博 应 用 产品 ,如 “看 看 你 
的 话 疡 指数 “我 的 微 博 被 转发 几 次 ”等 。 在 这 些微 博 附 件 的 基础 上 ,又 推出 了 核心 产品 
“AtImpress” ,试图 用 数据 量化 每 个 人 在 社交 网 络 内 的 影响 力 。 

国内 有 关 社 交 网 络 成 员 影响 力 的 研究 并 不 多 见 。2011 年 6 月 ,新 浪 微 博 推 出 * 微 数据 ” 
分 析 工 具 "…" ,让 成 员 对 自己 或 周围 的 粉丝 的 影响 力 进 行 定量 分 析 。 按 新 浪 的 定义 ,个 人 的 
影响 力 是 覆盖 度 ,传播 力 、 活 跃 度 三 者 的 综合 体现 ,参见 图 10-10。 这 项 工作 很 有 意义 ,增加 
了 粉丝 间 的 相互 了 解 , 迈 出 社交 网 络 平台 内 影响 力量 化 分 析 的 可 喜 一 步 。 如 影星 姚 晨 的 影 
响 力 为 1309, 新 浪 博 客 品牌 的 影响 力 为 844。 





全 。 影 响 力 分 析 我 的 影响 力 


感 我 的 粉 丝 
粉丝 分 析 
铁杆 粉丝 


粉丝 趋势 
有 ”我 的 关注 
关注 分 析 可 
人 脉 关 系 图 
人 


这 习 | 溅 十 
全 EJ 
由 恬 羡 度 、 传 描 力 、 活跃 度 三 者 综合 体现 我 个 人 的 影响 力 有 多 大 , 绿色 球 人 让 越 大 贡献 值 就 想 太 哄 。 
看 看 我 的 影响 力 有 多 大 , 哪 方面 还 需要 加 油 努 力 吧 ! 
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图 10-10 新 浪 微 博 “ 微 数据 ”影响 力 分 析 工 具 


在 新 浪 微 博 推 出 微 数据 之 前 ,国内 一 家 名 叫 微 博 风云 的 网 站 专门 分 析 新 浪 微 博 用 户 影 
响 力 ,据说 使 用 人 工 智 能 的 数据 挖掘 算法 对 此 进行 排名 ,使 用 的 指标 是 ， 

(1) PR 值 (People-Rank 值 ) 是 粉丝 质量 指数 ,PR>1 代表 粉丝 质量 高 于 平均 水 平 。 

(2) 关注 率 : 是 指 活跃 用 户 关注 的 比例 。 如 某 微 博 关注 率 是 20% ,代表 100 位 活跃 用 
户 有 20 人 关注 该 微 博 。 详 情 请 访问 其 网 站 。 

这 些微 观 分 析 ,比较 仔细 ,个 性 因素 很 强 , 反 映 了 社交 网 络 发 展 的 方向 ,往往 是 单一 平台 
的 微分 析 , 如 对 新 浪 微 博 的 分 析 。 作 为 个 人 或 企业 用 户 , 有 一 定 的 实际 意义 ,可 以 指导 自己 
在 网 络 内 的 行为 和 提高 成 效 。 问 题 是 ,目前 在 国内 ,很 难 有 第 三 开发 商 像 Klout 进入 推 特 和 


脸 书 内 ,专门 研究 用 户 影响 力 指数 这 种 商务 模式 。 同 时 ,新 浪 微 博 推出 * 微 数据 ?分 析 工 具 
后 ,由 于 自身 数据 等 优势 ,AtImpress 和 微 博 风云 的 市 场 空间 也 许 会 受到 影响 。 正 如 36 氮 
谈 到 : 上 述 3 个 指数 的 不 足 之 处 在 于 仅 支 持 新 浪 征 博 。 和 希望 早日 能 看 到 一 个 支持 新 浪 微 
博 、 腾 讯 微 博 、 人 人 网 等 诸多 社交 网 站 的 中 国 社交 影响 力 指 数 。 


10.4.3 社交 网 络 多 平台 影响 力 分 析 


社交 网 络 成 员 在 多 平台 间 的 影响 力 分 析 不 同 于 Klout 和 新 浪 微 博 的 微观 分 析 , 在 美国 、 
英国 和 日 本 等 国 开始 引起 关注 ,开始 流行 。 星 期 日 泰晤士 报 (Sunday Times) 发 表 的 大 英 社 
交 网 络 的 2000 名 社交 排行 榜 (The Social List) 就 是 一 例 , 参 见 图 10-11。 该 排行 榜 基 于 网 民 
在 推 特 、 脸 书 、LinkedIn 和 Foursquare 诸 平台 内 的 连接 、 推 讯 .共享 更 新 和 聊天 等 行为 进行 
统计 ,给 出 综合 指标 。 星 期 日 泰晤士 报 曾 于 1989 年 推出 英国 千 人 富豪 榜 ,在 全 球 影响 较 大 。 























图 10-11 英国 社交 网 络 的 2000 名 社交 排行 榜 (The Social List) 网 站 截图 


美国 的 一 家 网 站 Famecount 综合 脸 书 、 推 特 和 图 片 网 库 (YouTube) 三 家 网 络 平台 的 排 
行 指 标 , 对 国际 名 人 和 企业 品牌 列 出 唯一 指数 的 排行 榜 。Famecount 在 美国 发 行 较为 成 功 ， 
但 评价 指标 尚 有 以 下 问题 。 

(1) Famecount 指数 是 综合 上 述 3 项 指标 的 加 权 平 均 数 ,没有 反映 成 员 信息 传播 的 不 
匀 匀 性 ; 

(2) Famecount 主要 目的 是 娱乐 和 商用 ,以 致 排行 结果 与 原 数 据 排 次 有 一 定 偏差 ; 

(3) Famecount 使 用 的 图 片 网 库 (YouTube) 指 数 ,对 于 草根 人 士 基本 上 没有 意义 ; 因 
为 普通 人 ,特别 是 中 国人 ,很 少 把 图 片 放 到 该 平台 上 

(4) Famecount 主要 是 面向 西方 社交 网 络 , 对 中 国 相关 的 华语 社交 网 络 没 有 提 及 。 

社交 网 络 成 员 影响 力 - 网 焙 指 数 排行 系统 (Social Wentropy Index Rank System) 也 是 多 
平台 的 宏观 分 析 , 此 项 分 析 结 果 如 英国 的 社交 排行 榜 和 美国 的 Famecount, 会 引起 公众 特别 
是 企业 和 政府 的 关注 。 就 国内 的 情况 看 .新浪 微 博 和 博客 没有 一 个 统一 的 指标 来 评价 其 成 
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员 对 新 浪 整 体 的 影响 力 。 进 一 步 来 说 ,很 难 有 人 能 把 新 浪 、 腾 讯 .搜狐 、 人 人 、 百 度 等 网 络 运 
营 商 召集 在 一 起 ,研究 一 个 统一 的 多 平台 的 用 户 影响 力 指数 ,这 就 给 社交 网 粹 指数 排行 系统 
留 下 了 市 场 空 间 。 

该 系统 使 用 信息 炉 理 论 ,科学 地 反映 了 成 员 对 社交 网 络 的 影响 力 ,明显 比 Famecount 
先进 和 实用 。 网 炉 指数 排行 系统 主要 面向 中 国 和 海外 华人 社交 网 络 市 场 ,填补 了 这 项 空白 。 
社交 网 炉 指数 这 一 多 平台 的 宏观 分 析 系 统 与 新 浪 、 腾 讯 .搜狐 、 人 人 、 百 度 等 平台 内 部 微观 分 
析 是 一 种 共 赢 互补 关系 。 和 希望 今后 能 有 机 会 结合 Klout 和 新 浪 微 博 “ 微 数据 ”等 的 方法 ,与 
这 些 运营 商 合 作 , 直 接 使 用 诸 家 的 统计 数据 ,增加 网 炉 指 数 排行 精度 ,共同 推出 公正 、 科 学 、 
可 持续 性 的 中 国 社交 网 络 成 员 影响 力 分 析 系 统 。 

使 用 社交 网 炉 指数 排行 的 (美国 社交 网 络 金 榜 五 人 ) 一 文 在 海外 著名 的 华人 网 站 文学 城 
发 表 后 ,很 快 被 选 为 推荐 博客 ,参见 图 10-12。2011 年 6 月 17 一 19 日 ( 周 五 一 周 日 ) 3 天 内 
的 访问 量 达到 4600 人 次 , 列 人 本 周文 学 城 博客 排行 榜 第 55 名 。 可 见 在 海外 华人 的 社交 网 
络 ,此 类 排行 也 是 空白 ,社交 网 炉 指数 排行 系统 鼎 受 海外 华人 欢迎 。 





发 表 文 文章 编辑 ”评论 管理 ”更 新 资料 。 订 制 模板 
[着 看 我 的 博客 目录 ] [加 入 个 人 书签 ] 






美国 社交 网 络 金榜 五 人 2011.06-17 12:22:27 人 | 
| 


上 社交 网 络 只 是 喜 喜 键 、 玩 家 宗 ， 做 个 时 尚 过 人 ? 对 于 西方 政要 、 和 歌手 明星 和 企业 品牌 来 说 当然 不 仅 如 此 . 
5 月 15 日 ， 领 导 全 球 时 尚 风潮 的 歌手 有 孙女 士 (Lady Gaga) 发 现 其 在 西方 著名 社交 网 络 推 怕 (Twitter) 上 的 
粉丝 数 达到 10,050,061 ， 成 为 全 球 首位 " 干 万 粉丝 的 怪兽 ”- 


接 重 而 未 的 是 ， 美 国 竺 名 杂志 《 福 市 斯》 5 月 18 日 公布 了 时 尚明 星 百 人 杨 ， 隶 孙女 士 一 举 夺冠 ，¢ 福 市 
斯 》 是 根据 过 去 一 年 则 ， 本 人 的 收入、 媒体 知名 友和 社 充 网 络 人 气 ， 进 行 排名 社交 网 络 就 是 这 位 歌手 大 吉 
业 的 一 部 分 . 除了 2010 年 5 月 到 今年 5 月 总 收入 9000 万 美元 外 ， 如 素 一 所 示 ， 录 东 女 二 在 推 特 捉 有 
entropy 1011 允 万 迫 随 者 ， 在 脸 书 (Facebook) 也 有 3400 万 粉丝 为 其 扶 场 。 


图 10-12 文学 城 博 客 登 出 社交 网 粹 指数 排行 的 美国 社交 网 络 金榜 5 人 


2011 年 8 月 23 日 ,网 炉 科技 在 新 浪 博客 新浪 微 博 、 腾 讯 博 客 、 腾 讯 微 搏 、 搜 狐 博客 和 
百度 搜索 上 采集 近 2000 组 数据 ,根据 这 些 社交 网 络 成 员 的 粉丝 数 、 访 问 量 和 搜索 文档 数 等 
指标 ,使 用 社交 网 炉 指 数 的 模型 和 系统 ,统计 出 这 些 成 员 的 网 炉 指 数 ,给 出 中 国 社交 网 络 成 
员 影 响 力 两 百人 排行 榜 。 介 绍 文章 (中国 社交 网 络 影响 力 两 百人 }》 发 表 于 《价值 中 国 》 上 ,该 
文 由 编辑 推荐 , 列 人 当日 该 网 站 搏 文 排行 榜 。 
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11.1 金融 信息 化 


金融 信息 化 是 构建 在 由 通信 网 络 . 计 算 机 、 信 息 资 源 和 人 力 资源 4 要 素 组 成 的 国家 信息 
基础 框架 之 上 ,由 具有 统一 技术 标准 ,通过 不 同 速率 传送 数据 、 语 音 、 图 形 图 像 、 视 频 影 像 的 
综合 信息 网 络 将 具备 智能 交换 和 增值 服务 的 多 种 以 计算 机 为 主 的 金融 信息 系统 互 连 在 一 
起 ,创造 金融 经 营 管理, 服务 新 模式 的 系统 工程 。 

金融 信息 化 行业 的 分 类 如 下 。 

(1) 硬件 , 指 实现 数据 的 存储 、 处 理 、 计 算 以 及 传输 等 ,主要 包括 各 类 计算 机 主机 设备 、 
网 络 通信 设备 等 。 

(2) 软件 ,用 来 实现 具体 功能 的 各 种 计算 机 程序 , 即 包括 各 类 事务 处 理 软 件 , 如 银行 业 
务 处 理 系统 、 工 作 流 等 ; 也 包括 诸如 ERP( 企 业 资源 管理 )、.CRM( 客 户 关 系 管理 ) 这 类 管理 
软件 ; 以 及 用 于 决策 支持 的 数据 仓库 \ 数 据 挖掘 \ 统 计 分 析 等 辅助 分 析 的 软件 等 。 

(3) IT 应 用 服务 , 指 综 合 运用 软 硬 件 技术 ,将 其 应 用 到 业务 和 运营、 管理 决策 等 领域 中 ， 
以 解决 各 类 实际 问题 ,提升 效率 及 管理 水 平 的 手段 和 过 程 。 


11.1.1 全 球 金 融 信息 化 发 展 历程 


20 世纪 60 年 代 以 来 ,银行 .证 券 和 保险 行业 纷纷 开始 用 计算 机 代替 手工 作业 ,开启 信 
息 化 历程 。 全 球 金融 业 信 息 化 发 展 大 体 经 历 了 以 下 4 个 阶段 。 

(1) 脱 机 业务 处 理 。 主 要 是 实现 银行 业务 的 计算 机 辅助 处 理 ,其 主要 目的 是 节省 查询 
时 间 和 节约 成 本 ,这 是 金融 企业 信息 化 的 起 步 阶 段 。 

(2) 联机 业务 处 理 。 信 息 技术 在 金融 企业 内 部 迅速 渗透 ,主要 是 采用 计算 机 网 络 技术 ， 
实现 金融 企业 内 部 的 联机 业务 处 理 , 信 息 资 源 通过 网 络 实现 了 共享 。 

(3) 经 营 决策 信息 化 。 即 充分 利用 数据 仓库 等 技术 ,实现 了 综合 的 客户 信息 分 析 , 建 立 
了 电话 银行 .自助 银行 等 新 型 服务 体系 ,使 基于 IT 的 现代 银行 管理 和 业务 体系 趋 于 完善 。 

(4) 业务 集成 化 和 决策 智能 化 。 随 着 互联 网 和 通信 技术 的 飞速 发 展 , 国 外 银行 纷纷 开 
展 了 基于 互联 网 技术 的 银行 服务 与 产品 创新 ,出 现 了 网 络 银行 、 信 用 卡 .ATM 卡 、 在 线 支付 
以 及 各 种 电子 支票 支付 、 网 络 保险 、 网 上 证 券 等 新 型 产品 和 服务 。 

信息 技术 对 人 类 经 济 社会 的 发 展 产 生 了 重要 影响 ,现代 金融 行业 的 发 展 更 加 离 不 开 金 
融 信 息 技术 的 支持 。 国 外 的 金融 信息 化 发 展 早已 经 进入 业务 集成 和 决策 智能 化 阶段 ,经 过 
信息 技术 的 投资 改造 ,欧美 等 国 的 银行 业务 发 展 能 力 极 大 提高 :收益 率 增长 明显 。 信 息 技 术 
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给 传统 金融 带 来 了 新 的 活力 。 
11.1.2 我 国 金融 信息 化 发 展 趋势 


金融 行业 信息 化 的 实质 ,是 新 兴 的 信息 技术 对 传统 金融 业 的 一 场 经 济 革新 ,主旨 在 于 把 
金融 业 变 成 典型 的 基于 信息 化 技术 的 产业 ,信息 系统 成 为 金融 产业 战略 决策 .经 营 管理 和 业 
务 操作 的 基本 方式 。 我 国 金融 信息 化 建设 起 步 于 20 世纪 80 年 代 中 期 ,经 过 三 十 多 年 的 发 
展 ,目前 已 基本 形成 了 比较 完善 的 基于 IT 技术 的 金融 服务 体系 。 近 几 年 来 ,中 国 金融 业 的 
经 营 环境 发 生 了 巨大 变化 ,金融 体制 .经 营 理念 、 经 营 方式 和 管理 模式 发 生 了 深刻 变革 ,现代 
科学 技术 已 经 成 为 金融 变革 的 主要 推动 力 和 支撑 力 。2013 年 ,中 国 金融 行业 信息 化 投入 达 
到 511.6 亿 元 ,同比 增长 4. 34%; 2014 年 投资 规模 达到 530 亿 元 ,同比 增长 3.60%。 

近年 来 ,我 国 银行 业 的 整体 实力 和 抗 风险 能 力 逐 步 增强 ,金融 调控 和 监管 不 断 加 强 。 银 
行 总 资产 及 客户 贷款 数量 稳步 上 升 .银行 总 资产 及 贷款 规模 的 增加 既 为 银行 带 来 了 更 多 的 
收入 和 利润 ,又 意味 着 更 大 的 潜在 风险 。 总 的 来 说 ,银行 业 资 产 规模 的 扩大 将 会 刺激 银行 信 
息 化 投入 意愿 的 增加 ,其 中 一 个 重要 原因 就 是 风险 敞 口 的 增长 。 数 据 显示 ,2013 年 中 国 银 
行业 信息 化 IT 投入 规模 为 371. 5 亿 元 , 比 2012 年 增长 4.9% 。 银 行业 是 金融 行业 IT 投资 
比重 最 大 的 细 分 行业 ,而 商业 银行 的 IT 投资 在 银行 业 中 又 占据 主要 部 分 ,因此 商业 银行 IT 
投入 的 稳定 增长 将 影响 着 金融 业 IT 投资 的 基本 走势 。 近 年 来 ,银行 信息 化 产业 链 保持 着 
较 高 的 景气 度 , 发 展 空间 较 大 。 国 家 层面 “电子 化 "和 “网 络 化 ”的 政策 融合 ,也 将 促进 银行 业 
IT 方 面 的 大 额 投入 。 

目前 ,国内 银行 已 初步 建立 起 信息 化 平台 ,信息 化 基础 设施 建设 框架 已 基本 完成 ,国内 
银行 业 信息 化 顺利 跨越 了 大 规模 基础 设施 建设 的 阶段 ,未 来 的 银行 IT 信息 化 应 用 将 向 管 
理 和 服务 型 方向 发 展 。 银 行将 在 风险 管理 .网络 银行 、 金 融 审计 和 稽核 .商业 智能 ,决策 支持 
等 领域 加 快 投入 ,这 些 领域 在 未 来 将 成 为 银行 业 信息 系统 集成 应 用 的 重点 市 场 。 

数据 一 直 是 信息 时 代 的 象征 。2011 年 5 月 麦肯锡 全 球 研究 院 发 布 了 报告 (大 数据 : 创 
新 、 竞 争 和 生产 力 的 下 一 个 新 领域 后 ,大 数据 的 概念 备 受 关注 。 金 融 业 是 大 数据 的 重要 产 
生 者 ,交易 .报价 .业绩 报告 .消费 者 研究 报告 .官方 统计 数据 公报 .调查 .新 闻 报 道 无 一 不 是 
数据 来 源 。 金 融 业 也 高 度 依赖 信息 技术 ,是 典型 的 数据 驱动 行业 。 互 联网 金融 环境 中 ,数据 
作为 金融 核心 资产 ,撼动 了 传统 客户 关系 、 抵 质押 品 在 金融 业务 中 的 地 位 。 例 如 ,信用 卡 消 
费 记录 中 早 就 包含 消费 时 的 位 置信 息 , 现 在 就 可 以 被 互联 网 金融 利用 。 

与 传统 金融 相 比 ,大 数据 给 互联 网 金融 不 仅 带 来 了 金融 服务 和 产品 创新 ,以 及 用 户 体 验 
的 变化 .创造 了 新 的 业务 处 理 和 经 营 管理 模式 ,对 金融 服务 提供 商 的 组 织 结构 、 数 据 需求 与 
管理 .用 户 特 征 、 产 品 创新 力 来 源 、 信 用 和 风险 特征 等 方面 也 产生 了 重大 影响 ,显著 提升 了 金 
融 体系 的 多 样 性 ,也 对 金融 监管 和 宏观 调控 等 方面 提出 了 新 的 课题 。 大 数据 的 使 用 正在 改 
变 金 融 市 场 , 也 需要 改变 监管 市 场 的 方式 ,以 保证 市 场 参与 者 负责 地 使 用 大 数据 。 例 如 ， 
2010 年 5 月 的 “闪电 暴跌 ” 令 道 .琼斯 工业 平均 指数 (Dow Jones Industrial Average) 突然 大 
跌 , 美 国 监管 部 门 认为 是 高 频 交易 造成 了 快速 抛售 引发 的 更 多 抛售 。2013 年 4 月 23 日 的 
“无 厘 头 暴 跌 ” 的 缘由 是 美 联 社 的 Twitter 账号 发 出 巴 拉 克 ， 奥巴马 遭遇 想 怖 袭击 的 虚假 消 
息 : 大 数据 中 的 一 个 数据 点 出 错 就 能 导致 “无厘头 暴跌 ”。 
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11.2 金融 大 数据 综述 


金融 大 数据 是 指 集 合 海量 非 结 构 化 数据 ,通过 对 其 进行 实时 分 析 , 可 以 为 互联 网 金融 机 
构 提 供 客户 全 方位 信息 ,通过 分 析 和 挖掘 客户 的 交易 和 消费 信息 掌握 客户 的 消费 习惯 ,并 准 
确 预测 客户 行为 ,使 金融 机 构 和 金融 服务 平台 在 营销 和 风 控 方面 有 的 放 矢 。 麦 肯 锡 的 研究 
显示 ,金融 业 在 大 数据 价值 潜力 指数 中 排行 第 一 。 大 数据 决策 模式 对 银行 业 更 具 针 对 性 ,发 
展 模 式 转型 ,金融 创新 和 管理 升级 等 都 需要 充分 利用 大 数据 技术 、 践 行 大 数据 思维 。 

基于 大 数据 的 金融 服务 平台 主要 指 拥有 海量 数据 的 电子 商务 企业 开展 的 金融 服务 。 大 
数据 的 关键 是 从 大 量 数据 中 快速 获取 有 用 信息 的 能 力 , 或 者 是 从 大 数据 资产 中 快速 变现 的 
能 力 , 因 此 ,大 数据 的 信息 处 理 往往 以 云 计 算 为 基础 。 目 前 ,大 数据 服务 平台 的 运营 模式 可 
以 分 为 以 阿里 小 额 信 贷 为 代表 的 平台 模式 和 以 京东 、 苏 宁 为 代表 的 供应 链 金融 模式 。 大 数 
据 的 4V 特点 : Volume( 大 量 )、Velocity( 高 速 )、Variety( 多 样 )、Veracity( 精 确 ) 。 

金融 大 数据 模式 广泛 应 用 于 电 商 平台 ,以 对 平台 用 户 和 供应 商 进行 贷款 融资 ,从 中 获得 
贷款 利息 以 及 流畅 的 供应 链 所 带 来 的 企业 收益 。 随 着 金融 大 数据 的 完善 ,企业 将 更 加 注重 
用 户 个 人 的 体验 ,进行 个 性 化 金融 产品 的 设计 。 未 来 ,金融 大 数据 企业 之 间 的 竞争 将 存在 于 
对 数据 的 采集 范围 .数据 真 伪 性 的 鉴别 以 及 数据 分 析 和 个 性 化 服务 等 方面 。 

目前 ,国内 金融 大 数据 领域 发 展 较 快 的 有 阿里 巴巴 的 金融 电 商 平台 、 九 次 方 的 企业 大 数 
据 交 易 .IBM 的 Watson 大 数据 人 工 智 能 等 。 而 在 金融 大 数据 应 用 方面 也 是 百花 齐 放 ,“ 激 
活 数 据 , 智 创 未 来 "是 清 数 集团 董事 长 赵勇 博士 提出 的 大 数据 口号 , 清 数 科 技 致力 于 研发 金 
融 大 数据 的 应 用 ,如 协助 某 银行 建立 银行 业务 系统 的 统一 数据 分 析 平 台 , 在 CRM、OA.、 门 户 
网 站 ,营销 数据 ,信贷 数据 、 交 易 数 据 、 信 用 卡 数据 、 呼 叫 中 心 数据 等 方面 提供 大 数据 智能 分 
析 挖 掘 服务 。 利 用 数据 分 析 挖掘 算法 ,对 用 户 行为 数据 ,用户 群 体 分 析 等 方面 提供 对 应 的 商 
业 分 析 , 结 合 邮件 ,短信 、 线 上 精准 推送 等 服务 。 


11.2.1 金融 大 数据 的 特征 


(1) 网 络 化 的 呈现 。 在 金融 大 数据 时 代 , 大 量 的 金融 产品 和 服务 通过 网 络 来 展现 ,包括 
固定 网 络 和 移动 网 络 。 其 中 ,移动 网 络 将 会 逐渐 成 为 金融 大 数据 服务 的 一 个 主要 通道 。 随 
着 法 律 ,监管 政策 的 完善 , 随 着 大 数据 技术 的 不 断 发 展 , 将 会 有 更 多 ,更 加 丰富 的 金融 产品 和 
服务 通过 网 络 呈 现 。 支 付 结算 、 网 贷 .P2P、 众 筹 融资 .资产 管理 ,现金 管理 .产品 销售 、 金 融 
咨询 等 都 将 主要 通过 网 络 实现 ,金融 实体 店 将 大 量 减 少 ,其 功能 也 将 逐渐 转型 。 

(2) 基于 大 数据 的 风险 管理 理念 和 工具 。 在 金融 大 数据 时 代 , 风 险 管理 理念 和 工具 也 
将 调整 。 例 如 ,在 风险 管理 理念 上 ,财务 分 析 ( 第 一 还 款 来 源 ) 、 可 抵押 财产 或 其 他 保证 (第 二 
还 款 来 源 ) 重 要 性 将 有 所 降低 。 交 易 行为 的 真实 性 、 信 用 的 可 信 度 通过 数据 的 呈现 方式 将 会 
更 加 重要 ,风险 定价 方式 将 会 出 现 革命 性 变化 。 对 客户 的 评价 将 是 全 方位 ` 立 体 的 、 活 生生 
的 ,而 不 再 是 一 个 抽象 的 、 模 糊 的 客户 构图 。 基 于 数据 挖掘 的 客户 识别 和 分 类 将 成 为 风险 管 
理 的 主要 手段 ,动态 .实时 的 监测 而 非 事 后 的 回顾 式 评价 将 成 为 风险 管理 的 常态 性 内 容 。 

(3) 信息 不 对 称 性 大 大 降低 。 在 金融 大 数据 时 代 , 金 融 产 品 和 服务 的 消费 者 和 提供 者 
之 间 信 息 不 对 称 程度 大 大 降低 。 对 某 项 金融 产品 (服务 ) 的 支持 和 评价 ,消费 者 可 实时 获知 
该 信息 。 
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(4) 高 效率 性 。 金 融 大 数据 无 疑 是 高 效率 的 。 许 多 流程 和 动作 都 是 在 线 上 发 起 和 完 
成 ,有 些 动 作 是 自动 实现 的 。 在 合适 的 时 间 , 合 适 的 地 点 ,把 合适 的 产品 以 合适 的 方式 提供 
给 合适 的 消费 者 。 同 时 ,强大 的 数据 分 析 能 力 可 以 将 金融 业务 做 到 极 高 的 效率 ,交易 成 本 也 
会 大 幅 降低 。 

(5) 金融 企业 服务 边界 扩大 。 首 先 , 就 单个 金融 企业 而 言 ,其 最 适合 经 营 规模 扩大 了 。 
由 于 效率 提升 ,其 经 营 成 本 必 随 之 降低 。 金 融 企 业 的 成 本 曲线 形态 也 会 发 生变 化 。 长 期 平 
均 成 本 曲线 ,其 底部 会 更 快 来 临 ,也 会 更 平坦 更 宽 。 其 次 ,基于 大 数据 技术 ,金融 从 业 人 员 个 
体 服务 对 象 会 更 多 。 换 言 之 ,单个 金融 企业 从 业 人 员 会 有 减少 的 趋势 ,或 至 少 其 市 场 人 员 有 
降低 的 趋势 。 

(6) 产品 的 可 控 性 .可 受 性 。 通 过 网 络 化 呈现 的 金融 产品 ,对 消费 者 而 言 ,是 可 控 、 可 受 
的 。 可 控 , 是 指 在 消费 者 看 来 ,其 风险 是 可 控 的 。 可 受 ,是 指 在 消费 者 看 来 ,首先 其 收益 (或 
成 本 ) 是 可 接受 的 ; 其 次 产品 的 流动 性 也 是 可 接受 的 ; 最 后 消费 者 基于 金融 市 场 的 数据 信 
息 ,其 产品 也 是 可 接受 的 。 

(7) 普 惠 金融 。 金 融 大 数据 的 高 效率 性 及 扩展 的 服务 边界 ,使 金融 服务 的 对 象 和 范围 
也 大 大 扩展 ,金融 服务 也 更 接地 气 。 例 如 , 极 小 金额 的 理财 服务 .存款 服务 。 支 付 结算 服务 
等 普通 老百姓 都 可 享受 到 ,甚至 极 小 金额 的 融资 服务 也 会 普遍 发 展 起 来 。 传 统 金融 想 也 不 
敢 想 的 金融 深化 在 金融 大 数据 时 代 完 全 实现 。 


11.2.2 金融 大 数据 的 机 遇 和 挑战 

1. 金融 产业 面 对 的 机 遇 

金融 业 作 为 大 数据 的 主要 产生 方 , 其 中 大 数据 可 以 创造 的 价值 则 不 可 估计 : 金融 产业 
作为 信息 密集 型 的 服务 型 产业 , 它 所 产生 的 交易 记录 、 借 贷 记录 、 消 费 者 信用 记录 报告 等 都 
是 数据 来 源 ,而 每 一 个 从 事 金融 产业 的 企业 都 会 对 自己 的 企业 进行 高 规格 的 IT 设施 的 投 
资 ,所 以 这 些 企业 都 会 拥有 较为 庞大 的 数据 信息 库 可 以 被 利用 。 互 联网 的 逐步 普及 ,使 得 金 
融 信 息 化 的 程度 也 在 不 断 深化 ,电子 银行 .电子 货币 、 快 捷 支 付 等 金融 产品 和 服务 在 迅速 得 
到 推广 和 扩散 ,金融 产业 的 版 图 也 不 断 再 发 生 重组 。 在 这 种 趋势 下 , 必 将 会 催生 大 量 的 金融 
数据 , 非 结 构 化 数据 被 纳入 数据 库 , 来 自 银行 、 电 商 、 其 他 互联 网 金融 公司 的 大 量 数据 被 收 
集 , 通 过 云 计 算 对 其 进行 整理 和 交互 分 析 , 产 生 多 样 化 的 用 户 数据 结果 。 

从 金融 产业 营销 角度 来 说 ,大 数据 将 能 更 清晰 数据 化 地 得 到 客户 的 偏好 和 需求 ,通过 
定向 营销 或 个 性 化 推荐 吸引 客户 、 增 加 客户 黏 性 。 而 从 风险 管理 角度 来 说 ,通过 多 渠道 、 多 
角度 的 数据 来 源 和 对 交易 数据 的 深度 挖掘 ,金融 业 将 能 够 做 到 实时 监控 ,及 时 排查 潜在 金融 
风险 ,降低 风险 管理 成 本 ,提高 监管 效率 。 

大 数据 时 代 的 来 临 必 将 是 金融 业 发 展 的 绝 好 机 遇 。 

2. 金融 产业 面 对 的 挑战 

在 面 对 绝 佳 的 机 遇 的 同时 ,也 会 面临 诸多 的 挑战 。 

(1) 大 数据 的 兴起 会 对 传统 金融 机 构 形 成 压力 。 当 前 的 环境 下 ,客观 上 来 看 ,已 经 降低 
了 金融 服务 业 的 准 入 门槛 ,传统 意义 上 的 非 金 融 机 构 更 多 的 是 想 利用 自身 的 优势 在 金融 市 
场 中 占 得 一 席 之 地 。 相 反 , 传 统 金融 机 构 被 困 于 已 有 的 组 织 架构 和 陈旧 规则 ,而 不 能 发 掘 自 
己 的 价值 与 潜力 ,在 金融 竞争 的 浪潮 中 处 于 劣势 。 例 如 ,支付 宝 已 经 在 网 络 购物 支付 领域 处 
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于 领头 羊 的 绝对 优势 地 位 。 互 联网 金融 企业 在 大 数据 时 代 , 可 以 获得 更 多 非 结构 化 数据 ,不 
再 限于 用 户 的 现金 流水 等 结构 化 数据 ,用 户 的 互联 网 行为 都 被 收集 在 大 数据 库 中 ,对 用 户 的 
分 析 将 更 加 完善 和 真实 化 。 同 时 凭借 互联 网 的 快速 扩展 ,便捷 的 线 上 互联 网 金融 产品 对 传 
统 金融 机 构 产 业 产生 了 巨大 冲击 。 

(2) 数据 基础 设施 的 挑战 。 以 一 个 完整 的 支付 链条 为 例 , 一 笔 支 付 业务 可 以 分 为 交易 
前 ,交易 ,清算 、 结 算 和 交易 后 5 个 阶段 ,进一步 可 以 将 上 述 环 节 细 分 为 十 多 个 环节 ,每 一 个 
环节 基本 上 都 有 独立 的 机 构 进 行经 营 管理 ,同时 每 一 个 环节 也 必 将 产生 大 量 的 数据 往来 ,而 
这 些 大 量 的 数据 往来 必然 会 冲击 各 个 环节 上 的 机 构 的 基础 数据 设施 。 

(3) 金融 数据 的 安全 性 日 益 突出 。 网 络 大 数据 为 金融 业务 的 发 展 提供 了 便利 ,同时 也 为 
金融 犯罪 降低 了 成 本 。 大 量 的 数据 收集 整理 同时 也 意味 着 更 大 的 数据 泄漏 风险 。 虽 然 诸多 金 
融 机 构 都 致力 于 在 数据 安全 方面 上 进行 大 量 投资 ,但 是 无 奈 金 融 业 务 的 链条 较 长 ,各 环节 一 旦 
有 微小 瑕 闪 都 会 造成 金融 财产 的 不 安全 。 早 在 2010 年 ,中 国 香港 八达通 公司 对 其 拥有 的 进 两 
百 万 的 客户 数据 信息 私下 销售 ,引起 了 港 民 的 极 大 不 满 ,也 暴露 了 金融 数据 的 安全 隐患 。 

3. 金融 产业 的 应 变 对 策 

应 对 大 数据 对 金融 产业 的 冲击 的 对 策 的 关键 就 在 于 ,要 坚定 信念 地 发 挥 传统 金融 机 构 
的 优势 ,同时 要 寻求 新 型 金融 机 构 的 创新 之 路 ,做 到 多 角度 全 方位 的 发 展 。 从 顶层 设计 入 
手 , 面 向 全 局 考虑 发 展 ,并 且 要 时 刻 保持 以 客户 需求 为 导向 ,积极 努力 地 去 构造 金融 机 构 自 
身 的 大 数据 规模 ,同时 也 要 做 到 保障 信息 安全 。 而 这 个 规模 要 从 两 大 类 设备 实施 : 一 是 软 
基础 设施 ,主要 包含 从 事 金融 产业 和 大 数据 处 理 的 大 量 的 人 力 资源 ,要 保证 这 些 资源 有 足够 
的 储备 ,以 此 来 保证 金融 机 构 有 足够 多 的 智力 、 技 术 资 本 来 保证 金融 大 数据 的 原 汁 原味 ,并 
且 需 要 加 强 内 部 控制 ,保证 金融 机 构 所 掌握 的 用 户 数据 不 被 泄漏 ; 二 是 硬 基础 设施 ,主要 包 
含 基 础 IT 设备 和 信息 安全 防范 系统 。 运 用 基础 IT 设备 来 集约 化 地 完成 金融 机 构 内 外 的 
金融 数据 的 收集 、 汇 总、 处 理 及 分 析 , 使 机 构 、 用 户 双 方 都 可 以 以 最 快 的 .最 便利 的 方式 调用 
自己 本 身 需 要 的 信息 。 而 完备 的 信息 安全 防范 系统 将 通过 强化 身份 认证 、 数 字 证 书 等 安全 
认证 ,加 快 信息 安全 等 级 保护 制度 的 建立 ,切实 保护 数据 安全 。 

随 着 国内 网 购 市 场 的 迅速 发 展 ,淘宝 网 等 众多 网 购 网 站 的 市 场 争夺 战 也 进入 白热化 状 
态 ,网 络 购物 网 站 也 开始 推出 越 来 越 多 的 特色 产品 和 服务 。 以 余额 宝 为 代表 的 互联 网 金融 
产品 在 2013 年 刊 起 一 股 旋风 ,截至 目前 ,规模 超 1000 亿 元 ,用 户 近 三 千 万 , 相 比 普通 的 货币 
基金 ,余额 宝 鲜明 的 特色 当 属 大 数据 。 以 基金 的 申购 、 赎 回 预测 为 例 ,基于 淘宝 和 支付 宝 的 
数据 平台 ,可 以 及 时 把 握 申购 、 赎 回 变动 信息 。 另 外 ,利用 历史 数据 的 积累 可 把 握 客 户 的 行 
为 规律 。 淘 宝 网 的 “阿里 小 贷 ”更 是 得 益 于 大 数据 , 它 依托 阿里 巴巴 (B2B) 淘宝、 支付 宝 等 
平台 数据 ,不 仅 可 有 效 识别 和 分 散 风险 ,提供 更 有 针对 性 ,多样 化 的 服务 ,而 且 批 量化 、 流 水 
化 的 作业 使 得 交易 成 本 大 幅 下 降 。 每 天 :海量 的 交易 和 数据 在 阿里 的 平台 上 跑 着 ,阿里 通过 
对 商户 最 近 100 天 的 数据 分 析 , 就 能 知道 哪些 商户 可 能 存在 资金 问题 ,此 时 的 阿里 贷款 平台 
就 有 可 能 出 马 , 同 潜在 的 贷款 对 象 进行 沟通 。 


11.3 金融 大 数据 平台 总 体 架 构 


金融 大 数据 服务 平台 分 为 数据 应 用 、 数 据 计 算 、 数 据 管理 ,数据 源 4 个 层面 ,如 图 11-1 
所 示 。 数 据 应 用 、 数 据 管理 层 需要 整合 和 兼容 原 有 系统 进行 延续 和 提升 ; 数据 计算 层 是 需 
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要 新 开发 的 内 容 , 在 实时 数据 分 析 应 用 与 历史 数据 挖掘 方面 具有 潜在 的 研究 方向 。 
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图 11-1 金融 大 数据 服务 平台 


11.3.1 建设 原则 和 目标 


平台 是 大 数据 的 基础 实施 ,其 建设 .设计 和 系统 实现 过 程 中 ,应 遵循 如 下 指导 原则 。 

(1) 经 济 性 : 基于 现 有 场景 分 析 , 对 一 定时 间 段 内 的 数据 量 进行 合理 评估 ,确定 大 数据 
平台 规模 ,后 续 根 据 实 际 情况 再 逐步 优化 扩容 。 

(2) 可 扩展 性 : 架构 设计 与 功能 划分 模块 化 ,考虑 各 接口 的 开放 性 、 可 扩展 性 ,便于 系 
统 的 快速 扩展 与 维护 ,便于 第 三 方 系统 的 快速 接 入 。 

(3) 可 靠 性 : 系统 采用 的 系统 结构 、 技 术 措 施 、 开 发 手段 都 应 建立 在 已 经 相当 成 熟 的 应 
用 基础 上 ,在 技术 服务 和 维护 响应 上 同 用 户 积极 配合 ,确保 系统 的 可 靠 ; 对 数据 指标 要 保证 
完整 性 ,准确 性 。 

(4) 安全 性 : 针对 系统 级 、 应 用 级 、 网 络 级 , 均 提供 合理 的 安全 手段 和 措施 ,为 系统 提供 
全 方位 的 安全 实施 方案 ,确保 企业 内 部 信息 的 安全 。 大 数据 技术 必须 自主 可 控 。 

(5) 先进 性 : 涵盖 结构 化 、 半 结构 化 和 非 结 构 化 数据 存储 和 分 析 的 特点 。 借 鉴 互联 网 
大 数据 存储 及 分 析 的 实践 ,使 平台 具有 良好 的 先进 性 和 弹性 。 支 撑 当 前 及 未 来 数据 应 用 需 
求 ,引入 对 应 大 数据 相关 技术 。 

(6) 平台 性 : 归纳 整理 大 数据 需求 ,形成 统一 的 大 数据 存储 服务 和 大 数据 分 析 服 务 。 
利用 多 租户 ,实现 计算 负荷 和 数据 访问 负荷 隔离 ,多 集群 统一 管理 。 

(7) 分 层 解 耦 : 大 数据 平台 提供 开放 的 、 标 准 的 接口 ,实现 与 各 应 用 产品 的 无 颖 对 接 。 

金融 大 数据 平台 ,通过 采集 银行 内 部 与 外 部 、 静 态 与 动态 的 各 类 金融 数据 ,搭建 适 于 大 
数据 存储 与 分 析 的 Hadoop 集群 ,对 金融 数据 采取 合适 的 预 处 理 方式 ,利用 数据 挖掘 技术 得 
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出 隐藏 在 海量 数据 后 的 有 价值 的 潜在 规律 ,以 丰富 的 可 视 化 模型 向 客户 进行 展现 ,在 此 基 
础 上 实现 精准 营销 ,统一 广告 发 布 、 业 务 体验 优化 ,客户 综合 管理 ,风险 控制 等 金融 业务 应 
用 。 由 此 ,提升 金融 业务 的 水 平和 效率 ,推进 银行 业务 创新 ,降低 银行 管理 和 运行 成 本 。 具 
体 技术 目标 包括 以 下 几 个 方面 。 

(1) 构建 金融 数据 采集 工具 : 大 数据 分 析 需 要 收集 来 自 银 行内 部 的 和 外 部 的 .静态 的 
和 动态 的 各 种 金融 数据 ,为 此 构建 各 类 金融 数据 采集 工具 ,如 动态 采集 SDK. 日 志 提 取 分 析 
工具 、 外 部 数据 导入 工具 等 。 

(2) 搭建 Hadoop 大 数据 集群 : 搭建 Hadoop 大 数据 集群 ,是 建设 “金融 大 数据 平台 ” 
基础 。 利 用 多 台 性 能 较为 一 般 的 服务 器 ,组 成 一 套 基于 HDFS 和 Map-Reduce 机 制 的 集群 ， 
并 根据 需要 在 其 上 安装 Hive、.HBase、Sqoop、Zookeeper 等 软件 。 

(3) 实现 分 析 挖 掘 算法 : 支持 Hadoop 的 分 析 挖 掘 算法 ,是 “金融 大 数据 平台 ”的 一 个 关 
键 组 成 部 分 。 在 利用 传统 数据 挖掘 技术 的 基础 上 ,实现 包括 抽象 的 数学 算法 (如 关联 算法 、 
分 类 算法 、 聚 类 算法 .时序 分 析 算 法 等 ) ,以 及 在 此 基础 上 针对 金融 业务 的 专业 算法 (如 客户 
行为 特征 模型 ,效果 分 析 模 型 等 ) ,作为 进一步 构建 抽象 模型 和 金融 专业 模型 的 基础 。 

(4) 构建 分 析 挖 掘 模型 : 支持 Hadoop 的 分 析 挖 掘 模型 ,是 “金融 大 数据 平台 ”的 另 一 关 
键 组 成 部 分 。 在 上 一 步 基础 上 ,快速 构建 抽象 的 数学 模型 (如 神经 网 络 模 型 .事物 关联 模型 
等 ), 以 及 针对 金融 业务 的 专业 模型 (如 精准 营销 模型 .广告 效果 评估 模型 等 ) 。 

(5) 构建 ETL 工具 : 数据 预 处 理 也 是 “金融 大 数据 平台 ”需要 解决 的 问题 之 一 。 利 用 
市 场 上 已 有 的 数据 预 处 理 成 果 ,构建 一 个 支持 Hadoop 的 ETL 工具 ,实现 包括 规范 化 、 数 据 
抽样 .数据 排序 .汇总 .指定 因 变 量 . 属 性 变换 .数据 替换 .数据 降 维 . 数 据 集 拆 分 .离散 化 等 
功能 。 

(6) 实现 可 视 化 展现 工具 :“ 人 金融 大 数据 平台 ”上 的 分 析 结 果 将 主要 采用 丰富 多 彩 的 可 
视 化 形式 向 用 户 进行 可 视 化 展现 。 可 以 支持 : 分 类 树 图 .视觉 聚 类 图 .关联 图 .序列 图 .回归 
图 等 多 种 可 视 化 形式 。 

(7) 实现 金融 业务 应 用 : 将 分 析 挖 掘 的 结果 集成 到 具体 的 银行 业务 系统 中 ,如 精准 营 
销 系统 、 统 一 广告 发 布 平台 ,业务 体验 优化 系统 、 客 户 综合 管理 系统 、 风 险 控 制 系统 等 。 具 体 
方式 既 可 以 是 实现 某 个 独立 的 新 业务 系统 ,也 可 以 是 在 现 有 系统 中 实现 一 个 或 多 个 新 模块 ， 
从 而 扩充 或 提升 原 有 的 功能 。 


11.3.2 金融 大 数据 业务 架构 


“金融 大 数据 平台 ”由 数据 采集 层 ,数据 存 储 层 、 分 析 挖 掘 层 和 业务 应 用 层 组 成 ,总 体 框 
架 如 图 11-2 所 示 。 

(1) 数据 采集 层 : 负责 从 各 类 数据 源 中 提取 、 导 入 数据 ,主要 产品 包括 : 动态 采集 
SDK .日 志 提 取 分 析 工 具 、 外 部 数据 导入 工具 、 其 他 数据 提取 工具 等 。 

(2) 数据 存储 层 : 负责 将 预 处 理 后 的 数据 进行 存储 ,主要 由 可 进行 横向 扩展 的 Hadoop 
集群 构成 ,另外 辅 之 以 关系 数据 库 做 数据 中 转 、 元 数据 存储 、 供 某 些 软件 使 用 等 用 途 。 

(3) 分 析 挖 掘 层 : 负责 金融 数据 的 建 模 、 挖 掘 、 评 估 和 发 布 , 核 心 是 实现 两 类 数据 挖掘 
的 算法 和 模型 : 一 类 是 抽象 的 数学 算法 及 模型 , 另 一 类 是 在 此 基础 上 针对 金融 业务 的 专业 
算法 和 模型 。 
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图 11-2 金融 大 数据 总 体 框架 


(4) 业务 应 用 层 : 负责 将 分 析 挖 掘 结 果 的 可 视 化 展现 形式 ,集成 到 相应 的 金融 业务 系 
统 中 。 

另外 ,在 数据 采集 层 和 数据 存储 层 之 间 , 由 ETL 工具 负责 数据 预 处 理 任务 ; 在 分 析 挖 
据 层 和 业务 应 用 层 之 间 , 由 可 视 化 展现 工具 负责 分 析 挖 掘 结 果 的 可 视 化 展现 任务 。 


11.3.3 金融 大 数据 技术 架构 


“金融 大 数据 平台 ”的 技术 架构 采用 多 层次 形式 ,如 图 11-3 所 示 。 

数据 源 包括 各 类 动态 数据 (如 行为 数据 )、 静 态 数据 (如 属性 数据 )、 日 志文 件 以 及 其 他 数 
据 等 ,可 以 是 结构 化 的 、 半 结构 化 的 和 非 结构 化 的 数据 。 

在 数据 采集 层 , 各 采集 工具 根据 具体 情况 采用 不 同 的 技术 实现 方式 ,如 对 动态 数据 的 采 
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图 11-3 金融 大 数据 技术 架构 


集 , 使 用 C/S 架构 的 客户 端 采集 SDK ,对 日 志文 件 使 用 Map-Reduce 方式 的 分 析 提 取 工 具 ， 
对 静态 数据 按 Sqoop 方式 从 关系 数据 导入 ,对 其 他 数据 则 使 用 定制 化 程序 ,等 等 。 

ETL( 数 据 抽取 、 转 换 、 加 载 ) 将 采集 到 的 各 种 数据 整合 成 统一 的 数据 模型 ,包括 数据 清 
洗 、 数 据 转换 、 数 据 规约 数据 集成 等 。 为 加 快 项 目 进 度 和 保证 项 目 质量 ,初步 决定 在 某 个 支 
持 Hadoop 的 开源 ETL 产品 (如 Kettle) 的 基础 上 进行 二 次 开发 。 

在 数据 存储 层 , Hadoop 集群 使 用 Hadoop 技术 生态 圈 的 诸多 关键 技术 ,包括 : 分 布 式 
存储 HDFS 系统 、 并 行 处 理 Map-Reduce 机 制 .NoSQL 数据 库 HBase、 数 据 仓库 Hive、 协 调 
系统 Zookeeper 等 。 此 外 ,还 需 用 到 关系 数据 库 担 任 数据 中 转 、 元 数据 存储 、 供 某 些 软件 使 
用 等 用 途 。 

分 析 挖掘 层 的 任务 是 在 Hadoop 集群 实现 各 种 分 析 挖掘 算法 和 分 析 挖掘 模型 。 算 法 和 
模型 有 两 类 ,一 类 是 抽象 的 数学 算法 (如 聚 类 算法 .关联 分 析 算 法 ) 和 数学 模型 (如 神经 网 络 
模型 .事物 关联 模型 等 ) , 另 一 类 是 在 此 基础 上 构建 的 专业 算法 (如 金融 客户 分 类 算法 .效果 
评估 算法 ) 和 专业 模型 (如 客户 行为 特征 模型 .效果 评估 模型 )。 为 加 快 项 目 进度 、 保 证 项 目 
质量 和 扩大 适应 范围 ,初步 决定 在 SAS 和 R 的 分 析 挖 掘 包 的 基础 上 实现 算法 接口 ,并 利用 
算法 接口 构建 大 部 分 模型 ,其 余部 分 视 实际 情况 而 以 自主 研发 方式 构建 。 
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可 视 化 展现 将 分 析 挖 掘 结果 面向 用 户 进行 各 种 可 视 化 展现 (如 散 点 图 直方 图 .分布 图 、 
饼 图 等 ) ,分 析 挖 掘 的 质量 也 决定 着 展现 的 质量 。 为 加 快 项 目 进度 ,初步 决定 在 某 个 可 视 化 
展现 开源 产品 (如 R 的 图 形 包 ) 的 基础 上 进行 二 次 开发 。 

在 业务 实现 层 , 分 析 挖 掘 结果 集成 到 相应 的 金融 业务 系统 中 。 具 体 方式 既 可 以 是 实现 
某 个 独立 的 新 业务 系统 ,也 可 以 是 在 现 有 系统 中 实现 一 个 或 多 个 新 模块 ,从 而 扩充 或 提升 原 
有 的 功能 。 


11.3.4 金融 大 数据 网 络 架 构 


“金融 大 数据 平台 ”采用 集中 部 署 方式 ,硬件 环境 由 Hadoop 集群 服务 器 和 数据 库 集群 
组 成 ,如 图 11-4 所 示 。 








Hadoop 集 群 
NNI NN2 DNI1 DN2 DN3 


图 11-4 金融 大 数据 物理 架构 


其 中 ,Hadoop 集群 包括 两 个 NameNode( 主 从 方式 ) 和 多 个 DataNode( 最 少 三 个 ,以 后 
根据 需要 增加 ); NameNode 用 于 管理 数据 在 DataNode 上 的 分 配 ,而 DataNode 用 于 数据 的 
存储 。NameNode 和 DataNode 采用 相同 的 配置 ,运营 环境 中 建议 为 : CPU 为 两 块 X16 核 ， 
主 频 2 一 2.5GHz, 内 存 128GB, 硬 盘 12 块 X2TB。 

数据 库 集群 包括 两 台数 据 库 服务 器 ,采用 双 机 热 备 方式 。 其 配置 建议 为 : CPU 为 两 
块 X16 核 , 主 频 2 一 2.5GHz, 内 存 64GB ,硬盘 12 块 X2TB。 


11.4 金融 大 数据 分 析 
11.4.1 银行 风险 管理 状况 分 析 


银行 面临 的 风险 是 风险 管理 工作 的 对 象 ,因此 ,在 进行 风险 管理 工作 之 前 ,深刻 理解 面 
临 的 风险 状况 是 必 不 可 少 的 。 随 着 全 球 经 济 进 入 下 行 周期 以 及 银行 市 场 化 经 营 的 不 断 深 
入 ,我 国 银行 面临 的 风险 也 在 不 断 加 剧 。 不 仅 信 用 风险 形势 严峻 ,而 且 市 场 风险 和 操作 风险 
也 呈现 更 复杂 的 趋势 。 本 节 通 过 对 银行 面临 的 风险 状况 的 分 析 , 有 助 于 更 好 地 理解 在 (办 
法 ) 推 进 实施 背景 下 ,全 面 提 高 风险 管理 水 平 的 重要 意义 。 

1. 信用 风险 

信用 风险 是 指 债务 人 或 交易 对 手 未 能 执行 合同 所 规定 的 义务 或 信用 质量 发 生变 化 ,从 
而 给 债务 人 或 金融 产品 拥有 人 造成 经 济 损失 的 风险 。 银 行 作 为 信用 中 介 机 构 , 信 用 风险 一 
直 都 是 其 所 面临 的 最 主要 风险 。 目 前 ,我 国 银行 面临 着 严峻 的 信用 风险 , 主要 表现 特征 
如 下 。 
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首先 ,信贷 集中 度 过 高 ,中 长 期 贷款 比重 傅 来 愈 大 ,信贷 资金 投向 过 于 集中 且 行 业 重 倒 。 
在 行业 上 ,主要 投向 了 铁路 、 公 路 和 机 场 以 及 地 方 政府 融资 平台 构造 的 基础 设施 行业 、 房 地 
产业 ; 在 地 域 上 , 则 较 多 投向 了 沿海 经 济 发 达 地 区 。 而 银行 贷款 集中 度 过 高 ,行业 或 地 区 出 
现 周期 性 衰退 就 将 导致 大 量 信 贷 资金 无 法 收回 ,这 也 就 在 一 定 程度 上 增加 了 银行 的 信用 风 
险 。 其 次 ,我国 银行 信用 风险 已 进入 爆发 周期 。 国 内 外 经 验 表 明 , 信 用 风险 30 万 亿 的 金额 
已 经 开始 蔓延 甚至 侵入 银行 体系 ,形成 极 大 危害 。 还 有 我 国 银行 业 存 贷款 期 限 错 配 严重 。 
因为 中 长 期 贷款 具有 较 高 的 信用 风险 ,所 以 存 贷款 期 限 不 仅 可 以 作为 反映 流动 性 风险 的 重 
要 指标 ,还 可 以 在 一 定 程度 上 作为 反映 信用 风险 的 指标 。 从 理想 的 状态 考虑 ,短期 贷款 应 与 
短期 存款 匹配 ,而 中 长 期 贷款 应 与 长 期 存款 匹配 ,但 是 在 我 国 ,银行 存 贷款 期 限 错 配 趋势 明 
显 ,中 长 期 贷款 占 定期 存款 的 比例 已 由 2003 年 的 69% 上 升 到 99%。 

2. 市 场 风险 

在 我 国 ,银行 被 禁止 投资 股票 .期货 等 金融 领域 ,因此 我 国 银行 面临 的 主要 市 场 风 险 是 
利率 风险 和 汇率 风险 。 随 着 我 国 利率 .汇率 管理 制度 的 逐步 废除 ,市场 化 利率 、 汇 率 制 度 的 
逐渐 形成 ,银行 的 利率 自主 权 不 断 扩 大 ,利率 和 汇率 风险 将 成 为 我 国 银行 未 来 面临 的 主要 风 
险 之 一 。 

长 期 以 来 ,我 国 实行 严格 的 利率 管制 ,银行 存款 相对 稳定 ,支付 能 力 一 般 不 会 出 现 问题 。 
2012 年 6 月 中 国人 民 银 行将 利率 的 上 下 空间 已 经 打开 ,利率 市 场 化 进程 已 经 完成 近 70%， 
银行 间 市 场 利率 波动 性 不 断 加 大 ,利率 波动 性 上 升 ,必然 导致 银行 间 竞 争 加 剧 ,资金 流动 更 
加 频繁 ,存款 稳定 性 大 幅度 下 降 , 在 我 国 尚未 建立 起 完备 的 存款 保险 制度 的 情况 下 ,对 银行 
的 流动 性 提出 了 严峻 的 考验 ; 当前 ,我 国 金融 市 场 还 不 发 达 , 资 金 来 源 和 运用 渠道 单一 , 银 
行 短 时 间 内 调整 资产 负债 结构 的 能 力 有 限 ,同时 又 缺乏 对 利率 风险 的 保值 工具 和 手段 。 因 
此 ,在 利率 波动 加 大 后 ,银行 将 面临 较 大 的 利率 风险 。 目 前 ,我 国 的 汇率 制度 正在 从 单一 的 
有 管理 的 汇率 制度 向 市 场 化 的 浮动 汇率 制度 转变 ,市 场 化 的 浮动 汇率 制度 会 使 汇率 波动 的 
范围 增 大 ,我 国 银行 面临 的 汇率 风险 也 会 因此 而 加 大 。 

3. 操作 风险 

因 人 员 、 系 统 、 流 程 和 外 部 事件 所 引发 的 风险 ,根据 (办 法 ) 定 义 均 属于 操作 风险 范畴 。 
操作 风险 具有 普遍 性 和 非 一 利 性 特征 , 它 存在 于 银行 业务 的 各 个 环节 ,操作 风险 的 产 出 并 不 
能 为 银行 带 来 盘 利 ,但 是 在 业务 办 理 过 程 中 ,银行 又 不 可 避免 会 发 生 并 承担 相应 的 损失 。 在 
当前 经 济 下 行 及 经 营 环境 竞争 加 剧 的 背景 下 ,银行 违规 操作 导致 重大 案件 发 生 的 压力 有 增 
无 减 ,未 来 操作 风险 形势 将 十 分 严峻 。 

从 经 济 周期 规律 来 看 ,银行 操作 风险 及 案件 多 发 与 实体 经 济 不 景气 之 间 有 着 正 相关 关 
系 , 一 些 在 经 济 高 速 发 展 时 期 被 掩盖 、 被 忽视 的 银行 风险 ,很 可 能 随 着 经 济 进入 下 行 区 间 而 
水 落石 出 ,银行 内 控 失 效 诱 发 的 员工 操作 风险 可 能 集中 暴露 ,一 些 银行 客户 可 能 因为 经 济 困 
难 、 资 金 链 断 裂 而 骗 贷 跑 路 。 随 着 社会 资金 紧张 ,银行 员工 卷 人 民间 借贷 ,非法 集资 等 风险 
也 会 上 升 。 从 银行 经 营 环境 来 看 ,人 民 银 行 在 2012 年 6 月 和 ?7 月 先后 两 次 降息 并 扩大 贷款 
利率 浮动 范围 ,标志 着 利率 市 场 化 改革 步伐 加 快 , 存 贷款 利 差 收 窗 趋 势 明显 ,同时 , 随 着 金融 
改革 向 纵深 推进 ,直接 融资 市 场 对 银行 优质 客户 的 分 流 效 应 不 断 显 现 ,银行 市 场 竞争 将 更 加 
激烈 ,银行 机 构 员 工 规避 监管 .违规 操作 的 外 部 驱动 力 增 加 ,操作 风险 加 大 。 
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《商业 银行 资本 管理 办 法 ) 的 实施 对 银行 资本 管理 提出 了 更 为 严格 、 明 确 的 要 求 。 其 中 ， 
首次 将 操作 风险 纳入 我 国 银行 业 的 资本 监管 框架 ,对 操作 风险 的 资本 占 比 制定 了 具体 标准 ， 
除 第 一 支柱 要 求 对 操作 风险 计 提 资本 外 ,在 第 二 支柱 中 ,监管 部 门 还 可 以 更 加 对 单 家 机 构 的 
操作 风险 管理 水 平和 操作 风险 事件 的 发 生 情况 .提高 其 监管 资本 要 求 ,这 表明 ,银行 的 操作 
风险 管理 水 平 . 案 件 防 控 情况 将 直接 决定 其 资本 消耗 ,进而 影响 银行 各 项 业务 的 拓展 能 力 。 
因此 ,各 银行 有 必要 将 操作 风险 防 控 放 在 更 加 突出 的 位 置 。 

4. 流动 性 风险 

当 银行 出 现 流动 性 不 足 时 ,在 极端 情况 下 会 导致 银行 资 不 抵债 而 破产 清算 。2008 年 爆 
发 的 国际 金融 危机 即 是 流动 性 风险 爆发 的 突 发 性 和 银行 业 流动 性 管理 的 粗放 性 的 集中 体 
现 。 银 行 流动 性 风险 按 发 生 的 原因 包括 由 资产 业务 引起 的 流动 性 风险 和 由 负债 业务 引起 的 
流动 性 风险 两 种 。 我 国 银行 业 流动 性 风险 出 现 一 般 有 两 种 情况 : 一 是 银行 确实 没有 足够 的 
资金 来 满足 存款 人 的 日 常 取款 需要 ; 另 一 种 情况 是 银行 的 资产 治理 不 善 ,银行 一 时 没有 足 
够 的 能 力 将 投放 到 其 他 项 目 中 的 资金 调 过 来 ,暂时 出 现 了 流动 性 的 困难 。 就 目前 我 国 银行 
业 的 情况 来 看 ,资产 方面 主要 存在 有 短期 贷款 比例 较 低 、 中 长 期 较 高 的 现象 ,这 种 资金 来 源 
和 运用 期 限 出 现 了 严重 的 错 配 为 引发 流动 性 风险 带 来 隐患 。《 商 业 银 行 资本 管理 办 法 ) 引 入 
了 巴塞 尔 II 中 的 流动 性 覆盖 率 和 净 稳 定 融 资 比率 两 个 新 监管 指标 ,这 将 对 银行 的 成 本 控 
制 . 盘 利 能 力 以 及 金融 市 场 的 流动 性 都 会 产生 直接 影响 。 因 此 ,国内 银行 应 高 度 警 惕 这 种 由 
于 资本 结构 造成 的 现金 流 不 足 问 题 , 加 强 流 动 性 管理 。 

5， 其 他 风险 

目前 ,无 论 从 宏观 上 还 是 从 微观 上 .我国 银行 体系 已 经 累积 了 很 大 的 风险 , 随 着 金融 市 
场 化 和 金融 全 球 化 的 不 断 发 展 , 这 种 风险 的 压力 还 将 继续 增加 。 尽 管 长 期 以 来 ,无 论 银行 不 
良 资产 如 何 巨 大 ,银行 风险 并 未 对 我 国 的 经 济 发 展 带 来 特别 严重 的 实质 性 影响 ,但 中 国 式 的 
银行 危机 已 让 国内 外 学 者 和 业界 忧心 促 刷 ,主要 原因 在 于 以 下 几 点 : 一 是 持续 高 速 的 经 济 
增长 及 国家 究 底 风险 等 制度 性 因素 极 大 地 掩盖 了 银行 体系 的 风险 ,一 是 爆发 必 将 对 银行 体 
系 甚至 经 济 实体 带 来 无 法 估计 的 伤害 。 多 年 来 ,由 于 经 济 持续 高 速 增长 极 大 地 扩张 了 社会 
总 财富 ,我 国 居 民 高 储蓄 偏好 更 使 得 银行 存款 增长 速度 高 于 经 济 增长 速度 ,银行 业 在 不 良 贷 
款 不 断 累 积 下 仍 能 正常 运转 ,使 风险 始终 处 于 潜在 状态 ; 同时 ,我 国 银行 风险 实质 上 最 终 由 
国家 承担 ,人 民 币 在 资本 项 下 不 能 自由 兑换 ,利率 尚未 完全 市 场 化 ,存款 保险 制度 未 建立 , 银 
行 退 出 机 制 缺乏 等 ,也 大 大 掩盖 了 银行 风险 。 二 是 非 银 行 体系 的 “影子 银行 "严重 冲击 中 国 
的 银行 业 , 以 民间 借贷 .地 下 人 金融、 理财 产品 等 近 三 十 万 亿 的 金额 已 经 开始 蔓延 甚至 侵入 银 
行 体系 ,形成 极 大 危害 。 三 是 自 2012 年 下 半年 以 来 ,以 云南 四川、 上海 等 地 区 为 代表 出 现 
地 方 政府 债券 大 面积 违约 现象 ,利息 支付 不 出 。 


11.4.2 金融 大 数据 风险 管理 云 平 台 


金融 大 数据 风险 管理 云 平台 有 利于 提高 金融 机 构 稳 定 收 益 、 有 效 控制 风险 ,并 具有 快速 
决策 和 解决 问题 的 能 力 ,提升 整 体 工作 效率 ,改善 流程 ,降低 运营 成 本 。 从 技术 上 讲 , 金 融 风 
险 管理 云 平 台 就 是 利用 云 计算 和 大 数据 系统 模型 ,将 金融 机 构 的 数据 中 心 与 客户 端 分 散 到 
云 里 ;从 而 达到 提高 自身 系统 运算 能 力 、 数 据 处 理 能 力 , 改 善 客户 体验 评价 .降低 运营 成 本 的 
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目的 ,如 图 11-5 所 示 。 
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图 11-5 金融 风险 管理 大 数据 云 平台 


1. 金融 数据 处 理 云 应 用 

(1) 构建 云 金融 信息 处 理 系统 ,降低 金融 机 构 运营 成 本 。 云 概念 最 早 的 应 用 便 是 亚 马 
逊 (Amazon) 于 2006 年 推出 的 弹性 云 计算 (Elastic Computer Cloud ES2) 服 务 。 其 核心 便 
是 分 享 系统 内 部 的 运算 、 数 据 资源 ,以 达到 使 中 小 企业 以 更 小 的 成 本 获得 更 加 理想 的 数据 分 
析 、 处 理 、 储 存 的 效果 。 而 网 络 金融 机 构 运营 的 核心 之 一 , 便 是 最 大 化 地 减少 物理 成 本 和 费 
用 .提高 线 上 (虚拟 化 ) 的 业务 收入 。 云 计算 可 以 帮助 金融 机 构 构 建 “ 云 金融 信息 处 理 系统 ”， 
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减少 金融 机 构 在 诸如 服务 器 等 硬件 设备 上 的 资金 投入 ,使 效益 最 大 化 。 

(2) 构建 云 金融 信息 处 理 系 统 , 使 不 同类 型 的 金融 机 构 分 享 金融 全 网 信息 。 人 金融 机 构 
构建 云 化 的 金融 信息 共享 、 处 理 及 分 析 系 统 ,可 以 使 其 扩展 ,推广 到 多 种 金融 服务 领域 。 诸 
如 证 券 , 保 险 及 信托 公司 均 可 以 作为 云 金融 信息 处 理 系 统 的 组 成 部 分 ,在 全 金融 系统 内 分 享 
各 自 的 信息 资源 。 

(3) 构建 云 金融 信息 处 理 系 统 ,统一 网 络 接口 规则 。 目 前 ,国内 金融 机 构 的 网 络 接口 标 
准 大 相 径 庭 。 通 过 构建 云 金融 信息 处 理 系 统 , 可 以 统一 接口 类 型 ,最 大 化 地 简化 诸如 路 行业 
务 办 理 等 技术 处 理 的 难度 ,同时 也 可 减少 全 行业 硬件 系统 构建 的 重复 投资 。 

(4) 构建 云 金融 信息 处 理 系 统 , 增 加 金融 机 构 业 务 种 类 和 收入 来 源 。 上 述 的 信息 共享 
和 接口 统一 , 均 可 以 对 资源 的 使 用 方 收取 相关 的 费用 ,使 云 金融 信息 处 理 系 统 成 为 一 项 针对 
金融 系统 同业 企业 的 产品 ,为 金融 机 构 创 造 额外 的 经 济 收入 来 源 。 

2. 金融 机 构 安 全 系统 的 云 应 用 

基于 云 技术 的 网 络 安全 系统 也 是 云 概念 最 早 的 应 用 领域 之 一 。 现 如 今 ,瑞星 、 卡 巴 斯 
基 、 江 民 、 金 山 等 网 络 及 计算 机 安全 软件 全 部 推出 了 云 安全 解决 方案 。 其 中 ,占有 率 不 断 提 
升 的 360 安全 卫士 ,更 是 将 免费 的 云 安全 服务 作为 一 面 旗帜, 成 为 其 产品 竞争 力 的 核心 。 

所 以 说 ,将 云 概念 引入 到 金融 网 络 安全 系统 的 设计 当中 ,借鉴 云 安全 在 网 络 . 计 算 机 安 
全 领域 成 功 应 用 的 经 验 , 构 建 “ 云 金融 安全 系统 "具有 极 高 的 可 行 性 和 应 用 价值 。 这 在 一 定 
程度 上 ,能 够 进一步 保障 国内 金融 系统 的 信息 安全 。 

3. 金融 机 构 产品 服务 体系 的 云 应 用 

通过 云 化 的 金融 理念 和 金融 机 构 的 线 上 优势 ,可 以 构建 全 方位 的 客户 产品 服务 体系 。 
例如 ,地 处 A 省 的 服务 器 .B 市 的 风险 控制 中 心 .C 市 的 客服 中 心 等 机 构 , 共 同 组 成 了 金融 机 
构 的 产品 服务 体系 ,为 不 同 地 理 位 置 的 不 同 客户 提供 同样 细致 周到 的 产品 体验 。 这 就 是 " 云 
金融 服务 ”。 

事实 上 ,基于 云 金 融 思 想 的 产品 服务 模式 已 经 在 传统 银行 和 其 网 上 银行 的 服务 中 得 到 
初步 的 应 用 。 金 融 机 构 可 通过 对 云 概念 更 加 深入 的 理解 ,提供 更 加 云 化 的 产品 服务 ,提高 自 
身 的 市 场 竞争 力 。 

例如 ,虽然 各 家 传统 银行 的 网 上 银行 都 能 针对 客户 提供 诸如 储蓄 、 支 付 理 财 、 保 险 等 多 
种 不 同 的 金融 服务 .但 作为 客户 ,其 同一 种 业务 可 能 需要 分 别 在 多 家 不 同 的 银行 平台 同时 办 
理 。 当 有 相应 的 需求 时 ,就 需要 分 别 登录 不 同 的 网 上 银行 平台 进行 相关 操作 ,极其 烦琐 。 而 
云 金 融 信息 系统 ,可 以 协同 多 家 银行 为 客户 提供 云 化 的 资产 管理 服务 ,包括 查询 多 家 银行 账 
户 的 余额 总 额 \ 同 时 使 用 多 家 银行 的 现金 余额 进行 协同 支付 等 , 均 可 在 金融 机 构 单 一 的 平台 
得 以 实现 。 如 此 一 来 ,将 会 为 客户 提供 前 所 未 有 的 便利 性 和 产品 体验 。 


11.4.3 大 数据 征 信 


1. 大 数据 征 信 特征 


大 数据 征 信 体系 如 图 11-6 所 示 。 大 数据 征 信 体系 具有 覆盖 面 广 .信息 维度 丰富 、 数 据 
获取 实时 动态 的 优势 。 个 人 信贷 风险 评估 主要 从 身份 识别 、 还 款 意 愿 还 款 能 力 三 方面 进行 
评估 ,大 数据 征 信 相 对 于 传统 线 下 的 采集 和 整合 更 加 全 面 和 准确 ,其 信用 评估 结果 更 加 科 
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学 ,大 数据 征 信 与 传统 征 信 相 比 具有 以 下 三 方面 的 优势 。 
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姓名 身份 证 手机 号 … 人 脸 识别 指纹 识别 黑 名 单 查询 … 

报告 查询 数 账户 数 … 收入 历史 借贷 学 历 居住 地 址 … 

信贷 历史 违约 数 … 消费 水 平 兴趣 爱好 社交 行为 … 
传统 征 信 体 系 大 数据 征 信 体 系 


图 11-6 大 数据 征 信 体系 比较 图 


(1) 数据 主要 来 源 于 互联 网 ,互联 网 覆盖 人 群 广泛 ,通过 互联 网 获取 数据 ,弥补 了 传统 
征 信 体 系 的 不 足 , 能 够 有 效 拓展 业务 。 

(2) 丰富 了 数据 维度 和 种 类 ,传统 征 信 数 据 主要 采集 身份 信息 、 信 贷 信 息 、 非 金融 负债 
信息 三 类 ,以 及 部 分 公共 信息 ,在 大 数据 征 信 系 统 中 ,信用 评估 的 来 源 更 加 广泛 ,社交 网 络 与 
电子 商务 行为 中 产生 的 海量 数据 ,都 能 给 用 户 行为 提供 侧面 支持 。 

(3) 大 数据 挖掘 获得 的 数据 具有 实时 性 、 动 态 性 ,能 够 实时 监测 到 信用 主体 的 信用 变 
化 ,企业 可 以 及 时 拿 出 解决 方案 ,避免 不 必要 的 风险 。 

大 数据 征 信 评 估 个 人 信用 注重 强 相关 信息 ,忽略 弱 相 关 信息 。 通 过 大 数据 技术 手段 可 
以 挖掘 申请 人 多 维度 信息 ,包括 姓名 、 性 别 、 年 龄 .电话 、 身 份 证 件 、 家 庭 住 址 、 职 业 、 学 历 、 信 
贷 记录 支出、 消费 偏好 、 兴 趣 爱 好 、 社 交行 为 等 信息 。 并 不 是 所 有 数据 都 对 个 人 信用 评估 有 
参考 价值 ,数据 采集 的 越 多 ,审核 纬度 越 多 ,个 人 信用 评估 模型 越 失真 ,如 图 11-7 所 示 。 
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图 11-7 大 数据 个 人 征 信 体 系 
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按照 对 个 人 信用 风险 影响 的 大 小 可 以 将 个 人 信息 分 为 强 相关 信息 和 弱 相 关 信 息 , 个 人 
的 姓名 、 身 份 证 .手机 号 属于 用 户 身份 识别 的 强 相关 信息 ,借款 用 户 的 信用 卡 账 单 月 消费 金 
额 \ 网 络 购 物 真 实 流水 分 析 等 是 用 户 还 款 能 力 的 强 相 关 信 息 ,用户 的 历史 借款 记录 ,逾期 笔 
数 、 借 贷 意图 等 是 个 人 还 款 意 愿 的 强 相关 信息 。 

用 户 其 他 的 信息 ,例如 用 户 的 身高 体重、 姓名、 星座 等 信息 ,很 难 从 概率 上 分 析出 其 
对 用 户 个 人 信用 的 影响 ,这 些 弱 相关 信息 ,对 用 户 的 信用 消费 能 力 影 响 很 小 ,可 以 忽略 
不 计 。 

2. 大 数据 征 信和 应 用 

(1) 大 数据 征 信 应 用 于 个 人 信贷 审批 整个 流程 。 个 人 信贷 业务 审批 流程 分 为 贷 前 审 
核 、 贷 中 决策 、 贷 后 管理 三 个 部 分 ,如 图 11-8 所 示 。 在 贷 前 审核 阶段 ,主要 对 借款 人 进行 身 
份 识别 和 信用 评估 , 贷 中 决策 阶段 主要 进行 信用 跟踪 及 风险 预警 , 贷 后 管理 阶段 主要 有 逾期 
预警 、 失 联 修复 、 轨 迹 分 析 , 信 贷 风险 控制 主要 集中 在 贷 前 审核 与 贷 后 管理 阶段 。 


贷 前 贷 中 贷 后 
[ I l 

[ 
身份 核实 | | 信用 评估 | | 信用 跟踪 | | 风险 预警 | | 逾期 预警 | | 失 联 修复 | | 轨迹 分 析 


图 11-8 个 人 征 信 贷款 审核 图 


贷 前 审核 分 为 身份 核实 、 信 用 评估 两 部 分 ,由 于 个 人 信贷 额度 一 般 较 小 ,因此 对 用 户 还 
款 意 愿 的 评估 比 还 款 能 力 的 评估 更 为 重要 。 

个 人 的 姓名 电话、 身份 证 件 等 人 口 属性 信息 主要 用 来 对 借款 人 进行 身份 识别 ,通过 对 
异 款 人 手机 联系 人 的 确认 、 居 住地 址 位 置 .指纹 、 黑 名 单 查询 等 来 确定 借款 人 身份 是 否 真实 ， 
是 否 具 有 贷款 资格 ,防止 欺诈 风险 。 

个 人 的 历史 借贷 记录 包括 负债 .是 否 逾期 还 款 等 信息 ,能 够 体现 出 个 人 负债 情况 ,及 信 
用 度 ,负债 额度 高 .恶意 逾期 还 款 次 数 较 多 的 客户 属于 高 风险 客户 ; 个 人 的 消费 数据 包括 借 
款 用 户 的 信用 卡 账 单 月 消费 金额 .网 络 购物 真实 流水 分 析 可 以 对 用 户 还 款 能 力 进行 评估 ， 
具有 高 薪 工 作 的 用 户 且 消费 水 平 较 高 的 客户 ,其 贷款 信用 违约 率 较 低 ; 运营 商 数据 可 以 对 
用 户 联系 人 ,通话 记录 等 进行 分 析 , 与 贷款 电话 通话 时 间 较 长 , 换 号 频率 高 .经常 关机 的 客户 
骗 贷 风险 较 高 。 

在 贷 中 决策 阶段 ,主要 对 用 户 进 行 信用 跟踪 及 风险 预警 ,实时 监测 信用 主体 的 信用 风 
险 , 例 如 , 卷 入 法 律 纠纷 .天 灾 人 祸 等 . 需 及 时 做 出 风险 预警 。 

贷 后 管理 主要 跟踪 客户 所 属 行业 、 客 户 经 济 状况 、 客 户 异常 行为 ,包括 其 个 人 信用 的 变 
化 ,及 时 发 现 可 能 不 利于 贷款 按时 归还 的 问题 ,并 提出 解决 问题 的 措施 。 举 例 来 说 ,假如 发 
现 借款 人 在 其 他 平台 借款 已 经 发 生 逾 期 .近期 手机 经 常 关机 等 迹象 , 则 借款 人 有 和 较 高 的 概率 
逾期 还 款 , 需 及 时 做 出 逾期 预警 ; 一 旦 客户 已 经 失 联 ,可 以 利用 用 户 联系 人 、 通 话 记录 等 进 
行 分 析 , 定 位 用 户 手机 使 用 位 置 . 了 解 到 其 联系 人 信息 ,结合 出 行 记录 等 分 析 借 款 人 行踪 ; 
利用 借款 人 行踪 、 经 济 状况 变化 、 消 费 等 信息 了 解 借款 人 逾期 原因 ,是 有 钱 不 还 还 是 因为 经 
济 能 力 等 原因 无 钱 可 还 ,制定 相应 的 催收 方案 。 

(2) 大 数据 征 信 应 用 不 仅 限于 传统 金融 机 构 , 还 可 以 与 日 常生 活 场景 结合 在 一 起 。 从 
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应 用 范围 来 看 ,目前 大 数据 征 信 除了 在 金融 机 构 ,政府 部 门 公 共 服 务 等 场景 之 外 ,还 能 与 各 
类 生活 化 .日 常 化 的 场景 结合 在 一 起 ,比如 出 行 的 租车 免 押 金 、 住 宿 的 入 住 免 押金 ,购物 的 先 
试 后 买 等 各 类 日 常 履 约 场景 相 结合 。 

随 着 互联 网 ,尤其 是 移动 互联 网 的 普遍 化 ,人 们 的 行为 数据 逐渐 在 互联 网 上 沉淀 ,包括 
金融 ,餐饮 零售 旅游 .社区 .出 行 ,教育 .医疗 .美容 等 诸多 领域 。 新 兴 场 景 的 出 现 , 一 方面 ， 
让 征 信 走 出 常规 的 金融 应 用 场景 ,扩大 了 个 人 征 信 的 市 场 空间 ; 另 一 方面 , 极 大 地 提高 了 用 
户 体验 ,进而 提升 了 个 人 征 信 的 使 用 黏 性 。 

目前 ,不 同 机 构 数据 资源 共享 仍然 存在 难度 ,因此 不 同 的 大 数据 征 信 产 品 侧重 点 不 同 ， 
有 的 倾向 电 商 信用 行为 ,有 的 侧重 互联 网 社交 行为 ,有 的 反映 借款 人 风险 等 。 因 此 在 全 面 评 
估 个 人 信用 风险 时 ,可 以 结合 多 家 机 构 的 信用 评估 报告 ,从 社交 、 电 商 、 招 聘 、 浏 览 行为 .地 理 
位 置 等 不 同 角度 对 用 户 做 出 全 息 用 户 画 像 , 判 断 其 综合 情况 。 


11.4.4 大 数据 反 欺 诈 

1. 移动 大 数据 的 商业 价值 

在 PC 互联 网 时 代 , 不 管用 户 是 否 喜 欢 BAT, 其 网 站 仍然 在 那里 。 但 是 在 移动 互联 网 
时 代 , 如 果 一 个 用 户 不 喜欢 这 个 应 用 ,就 可 以 在 两 秒 钟 内 删 掉 这 个 App ,彻底 中 断 和 它 的 连 
接 ,无 论 其 是 不 是 BAT。 在 移动 互联 网 时 代 , 选 择 权 完全 转向 用 户 , 消 费 者 将 成 为 数字 世界 
的 中 心 。 过 去 以 品牌 为 中 心 的 消费 形式 ,将 会 转变 为 以 消费 者 为 中 心 的 消费 形式 。 

智能 手机 上 安装 的 App 和 App 使 用 的 频率 ,可 以 代表 用 户 的 喜好 。 例 如 ,喜欢 理财 的 
客户 ,其 智能 手机 上 一 定 会 安装 理财 App, 并 经 常 使 用 ; 母 婴 人 群 也 会 安装 和 母 婴 相关 的 
App, 频 繁 使 用 ; 商旅 人 群 使 用 商旅 App 的 频率 一 定 会 高 于 其 他 移动 用 户 。80 后 、90 后 将 
成 为 社会 的 主要 消费 人 群 ,他 们 的 消费 行为 将 会 以 移动 互联 网 为 主 ,App 的 安装 和 活跃 数 
据 更 加 能 够 反映 出 年 轻 人 的 消费 偏好 。 

智能 手机 设备 的 位 置信 息 代 表 了 消费 者 的 位 置 轨迹 ,这 个 轨迹 可 以 推测 出 消费 者 的 消 
费 偏 好 和 习惯 。 在 美国 ,移动 设备 位 置信 息 的 商业 化 较为 成 熟 ,GPS 数据 正在 帮助 很 多 企 

进行 数据 变现 ,提高 社会 运营 效率 。 在 中 国 , 移 动 大 数据 的 商业 应 用 刚刚 开始 ,在 房地产 
此 、 零 售 行业 、 金 融 行业 、 市 场 分 析 等 领域 取得 了 一 些 效果 。 

特别 是 在 互联 网 金融 领域 的 应 用 ,移动 大 数据 正在 帮助 互联 网 金融 企业 实施 反 欺 诈 , 降 
低 恶 意 诈骗 给 互联 网 金融 企业 带 来 的 损失 。 

2. 恶意 欺诈 成 为 互联 网 金融 的 主要 风险 

近 几 年 ,互联 网 金融 爆发 式 发 展 .2015 年 P2P 的 交易 总 额 超过 一 万 亿 , 将 成 为 具有 影响 
力 的 产业 。 近 年 来 ,大 量 的 金融 行业 专业 人 士 和 传统 产业 资本 进入 到 互联 网 金融 领域 ,表明 
这 个 产业 的 生命 力 正 在 不 断 增 强 . 有 的 P2P 企业 的 年 交易 额 已 经 突破 百 亿 元 ,有 的 P2P 企 
业 估 值 也 超过 了 15 亿美 金 。 

但 是 在 P2P 行业 ,其 面 对 的 风险 也 在 加 大 ,除了 传统 的 信用 风险 ,其 外 部 欺诈 风险 正在 
成 为 一 个 主要 风险 。 有 的 P2P 公司 统计 过 . 带 给 P2P 公司 的 最 大 外 部 风险 不 是 借款 人 的 坏 
账 ,而 是 犯罪 集团 的 恶意 欺诈 。 网 络 犯 罪 正在 成 为 P2P 公司 面临 的 主要 威胁 之 一 ,甚至 在 
一 些 P2P 公司 ,恶意 欺诈 产生 的 损失 占 整体 坏账 的 60%。 很 多 P2P 公司 将 主要 精力 放 在 
如 何 预 防 恶 意 欺 诈 方 面 。 高 风险 客户 识别 和 黑 名 单 成 为 预防 恶意 欺诈 的 主要 手段 。 
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3. 移动 大 数据 在 反 欺 诈 领 域 的 应 用 

移动 大 数据 中 的 位 置信 息 代表 了 用 户 轨迹 ,商业 应 用 较 早 。2014 年 ,美国 移动 设备 
位 置信 息 的 市 场 规模 接近 一 千 亿 美金 。 但 中 国 移动 设备 位 置信 息 的 商业 应 用 才刚 刚 
开始 。 

从 技术 上 讲 ,定位 移动 设备 的 位 置 有 三 种 方式 ,第 一 种 是 通过 运营 商 的 三 个 基站 定位 ， 
其 误差 大 概 在 200m; 第 二 种 是 通过 手机 App 中 的 GPS 位 置信 息 定位 ,大 概 误差 为 50m; 
第 三 种 是 通过 WiFi 定位 ,误差 大 概 在 3 一 5m。 在 移动 设备 位 置信 息 商 业 应 用 中 ,三 种 定位 
方式 都 被 应 用 ,室内 以 WiFi 定位 为 主 ,室外 以 GPS 定位 为 主 。 移 动 大 数据 在 反 欺 诈 领域 具 
有 以 下 应 用 场景 。 

(1) 用 户 居住 地 的 辨别 。 线 上 的 欺诈 行为 具有 较 高 的 隐蔽 性 ,很 难 识别 和 侦 测 。P2P 
贷款 用 户 很 大 一 部 分 来 源 于 线 上 ,因此 恶意 欺诈 事件 发 生 在 线 上 的 风险 远 远 大 于 线 下 。 中 
国 的 很 多 数据 处 于 封闭 状态 ,P2P 公司 在 客户 真实 信息 验证 方面 面临 较 大 的 挑战 。 

移动 大 数据 可 以 验证 P2P 客户 的 居住 地 点 ,例如 , 某 个 客户 在 利用 手机 申请 贷款 时 , 填 
写 自己 的 居住 地 是 上 海 。 但 是 P2P 企业 依据 其 提供 的 手机 设备 信息 ,发 现 其 过 去 三 个 月 从 
来 没有 居住 在 上 海 , 则 这 个 人 提交 的 信息 可 能 是 假 信息 ,发 生 恶意 欺诈 的 风险 较 高 。 

移动 设备 的 位 置信 息 可 以 辨识 出 设备 持 有 人 的 居住 地 点 ,帮助 P2P 公司 验证 贷款 申请 
人 的 居住 地 。 

(2) 用 户 工 作 地 点 的 验证 。 借 款 用 户 的 工作 单位 是 用 户 还 款 能 力 的 强 相关 信息 ,具有 
高 薪 工 作 的 用 户 , 其 贷款 信用 违约 率 较 低 。 这 些 客户 成 为 很 多 贷款 平台 积极 争取 的 客户 ,也 
是 恶意 欺诈 团伙 主要 假冒 的 客户 。 

某 个 用 户 在 申请 贷款 时 ,如 果 声 明 自 己 是 工作 在 上 海陆 家 嘴 金 融 企 业 的 高 薪 人 士 ,其 贷 
款 审 批 会 很 快 并 且 额 度 也 会 较 高 。 但 是 P2P 公司 利用 移动 大 数据 ,发 现 这 个 用 户 在 过 去 的 
三 个 月 里 面 , 从 来 没有 出 现在 陆家嘴 ,大 多 数 时间 在 城乡 接合 处 活动 ,那么 这 个 用 户 恶意 其 
诈 的 可 能 性 就 较 大 。 

移动 大 数据 可 以 帮助 P2P 公司 在 一 定 程度 上 来 验证 贷款 用 户 的 真实 工作 地 点 ,降低 犯 
罪 分 子 利用 高 薪 工 作 进行 恶意 欺诈 的 风险 。 

(3) 欺诈 聚集 地 的 识别 。 恶 意 欺 诈 往 往 具有 团伙 作案 和 集中 作案 的 特点 。 犯 罪 团伙 成 
员 常 常会 集中 在 一 个 临时 地 点 ,雇佣 一 些 人 , 短 时 间 内 进行 疯狂 作案 。 

大 多 数 情 况 下 ,多 个 贷款 用 户 在 同一 个 小 区 居住 的 概率 较 低 ,同时 贷款 的 概率 更 低 。 如 
果 P2P 平台 发 现 短 短 几 天 内 ,在 同一 个 GPS 经 纬度 ,出 现 了 大 量 贷款 请 求 ,并 且 用 户 信息 
很 相似 ,申请 者 居住 在 偏远 郊区 ,这 些 贷款 请 求 的 恶意 欺诈 可 能 性 就 较 大 。P2P 公司 可 以 将 
这 些 异常 行为 定义 为 高 风险 事件 ,利用 其 他 的 信息 进一步 识别 和 验证 ,降低 恶意 欺诈 的 

移动 设备 的 位 置信 息 可 以 帮助 P2P 公司 ,识别 出 出 现在 同一 个 经 纬度 的 群体 性 恶意 欺 
诈 事 件 , 降 低 不 良 贷款 发 生 概率 。 

4. 高 风险 贷款 用 户 的 识别 

高 风险 客户 也 是 P2P 企业 的 一 个 风险 。 高 风险 客户 定义 比较 广泛 ,除了 信用 风险 , 贷 
款 人 的 身体 健康 情况 也 是 一 个 重要 参考 。 移 动 大 数据 的 位 置信 息 、 安 装 的 App 类 型 、App 
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使 用 习惯 ,在 一 定 程度 上 反映 了 贷款 用 户 的 高 风险 行为 。 

P2P 企业 可 以 利用 移动 设备 的 位 置信 息 , 了 解 过 去 三 个 月 用 户 的 行为 轨迹 。 如 果 某 个 
用 户 经 常 在 半夜 两 点 出 现在 酒吧 等 危险 区 域 ,并 且 经 常 有 飙车 行为 ,这 个 客户 定义 成 高 风险 
客户 的 概率 就 较 高 。 移 动 App 的 使 用 习惯 和 某 些 高 风险 App 也 可 以 帮助 P2P 企业 识别 出 
用 户 的 高 风险 行为 。 如 果 用 户 经 常 在 半夜 两 点 频繁 使 用 App, 经 常 使 用 一 些 具有 较 高 风险 
的 App( 例 如 某 男 同性 恋 应 用 ) ,其 成 为 高 风险 客户 的 概率 就 较 大 。 

当 用 户 具 有 以 上 的 危险 行为 时 ,其 身体 健康 就 面临 着 较 大 的 威胁 ,P2P 企业 可 以 参考 移 
动 数据 ,提高 将 客户 列 为 高 风险 客户 的 概率 ,拒绝 贷款 或 者 提前 收回 贷款 ,降低 用 户 危 险 行 
为 导致 坏账 的 风险 。 


11.4.5 大 数据 精准 营销 


如 今 百货 零售 行业 受到 经 济 下 行 . 线 上 电 商 的 冲击 、 消 费 乏 力 而 增长 缓慢 ,行业 竞争 激 
烈 。 业 态 容易 复制 、 商 家 品牌 可 以 分 享 、 推 广 活动 没有 新 意 等 ,真正 学 不 来 的 是 自身 数据 的 
处 理 , 分 析 和 挖掘 ,如 何 利用 数据 背后 潜在 的 商业 价值 。 

1. 大 数据 理解 消费 者 行为 特征 

(1) 供需 精准 化 ,大 数据 的 第 一 个 价值 在 于 均衡 供给 和 需求 。 

@ 购物 中 心 根据 客流 数量 和 历史 数据 告知 各 商家 下 个 时 段 的 预计 顾客 数 ,顾客 App 
接收 、 蓝 牙 推送 精准 推荐 的 优惠 券 .引导 顾客 流量 ,均衡 供需 。 

加 实现 顾客 标签 管理 的 同时 ,把 商家 部 分 商品 套餐 、 服 务 数据 化 处 理 并 且 标 签 化 ,以 
便 与 目标 顾客 更 精准 匹配 推荐 。 

@ “购物 篮 " 式 的 精准 化 营销: 将 会 员 分 为 15 个 层级 ,为 每 一 个 层级 推送 完全 不 同 但 与 
之 相应 的 信息 。 通 过 * 云 数据 计算 中 心 ?为 客户 提供 精准 的 个 性 化 营销 ,管理 层 也 能 及 时 掌 
握 每 家 商户 的 销售 业绩 以 及 市 场 变化 状况 及 趋势 。 

@ 提供 WiFi 服务 ,将 微 信 、 微 博 \ 商 家 网 站 .App、 往 来 、. 易 信 等 连接 成 一 个 整体 等 , 增 
加 消费 者 的 店内 购物 体验 和 购买 转换 率 ,让 购物 中 心 的 全 渠道 零售 管理 逐渐 从 梦想 成 为 
可 能 。 

(2) 提升 消费 者 体验 ,大 数据 让 连接 成 本 变 低 , 能 实时 精准 地 把 优惠 推送 给 最 有 需求 的 
人 (例如 ,如 果 展 厅 某 些 场次 观众 很 少 ,购物 中 心 可 向 附近 的 会 员 发 送 免费 参观 券 , 用 最 小 成 
本 让 顾客 感受 到 意外 惊喜 和 体验 ) 。 

@ 根据 大 数据 的 消费 客 群 .消费 金额 .消费 频次 .消费 潜力 分 析 , 主动 邀请 高 价值 顾客 
和 高 影响 力 顾客 成 为 VIP 会 员 , 为 其 提供 预 留 车 位 、 主 动 洗车 ,按摩 椅 贵 宾 室 , 一 对 一 导购 
等 特权 服务 。 

@ 顾客 就 是 天 生 的 、 最 好 的 推广 员 , 口 碑 相 传 也 是 最 好 的 营销 广告 …… ,引导 顾客 享受 
新 服务 ,并 引导 他 们 随时 在 移动 端 提出 感受 和 建议 ,并 给 以 特别 的 惊喜 和 优惠 ,让 其 成 为 最 
好 的 推广 宣传 员 。 

@ 利用 网 络 和 数据 进行 一 些 有 趣 的 游戏 式 活动 促销 。 比 如 利用 社交 关系 数据 ,提醒 顾 
客 他 的 朋友 也 在 购物 中 心 ,双方 碰 面 ,对 方 加 入 App, 双 方 就 都 会 有 惊喜 和 奖励 。 又 比如 联 
合 商家 搞 一 些 寻宝 活动 等 。 

@ 通过 大 数据 可 以 分 析出 会 员 的 行为 习惯 ,消费 额 不 同 ,购买 商品 差异 ,从 而 在 某 一 时 
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间 推 送 给 会 员 某 品牌 的 优惠 券 .O2O 活动 或 艺术 沙龙 等 精准 信息 ,从 而 实现 大 数据 背后 的 
精准 化 营销 。 

(3) 购物 中 心服 务 升级 ,个 性 化 、 精 准 化 .人 性 化 的 服务 是 提高 购物 中 心 顾客 黏 性 和 依 
赖 性 的 重要 环节 。 

@ 针对 目前 购物 中 心 附 近 交 通路 线 环 境 复杂 、 公 共 服 务 指向 不 清晰 、 商 家 变换 快 等 情 
况 ,利用 App 和 定位 技术 ,提供 导航 路 径 服 务 。 

@ 针对 购物 中 心 周边 文化 展览 单位 汇集 ,提供 路 径 导 航 , 前 期 导 览 .导游 等 服务 。 

@ 提供 购物 中 心 周边 车 位 的 即时 空位 信息 并 给 以 路 径 导航 。 

@ 解决 群体 顾客 的 兴趣 冲突 ,如 一 家 三 口 到 购物 中 心 ,孩子 可 以 送 到 儿童 乐园 或 培训 
教室 ,母亲 可 以 去 服装 店 购物 ,父亲 可 以 去 图 书馆 、 运 动 馆 …… 利 用 App 的 信息 共享 功能 ， 
家 长 可 以 随时 关注 、 联 络 对 方 。 

2. 以 大 数据 构建 线 上 线 下 高 效 运营 平台 

现在 行业 内 众多 的 百货 公司 、 购 物 中 心 超市 乃至 专卖 店 都 在 使 用 客流 监控 系统 ,因此 ， 
购物 中 心 也 将 综合 利用 先进 的 数据 采集 方法 ,采集 更 加 全 面 准确 的 线 下 客流 数据 : 蓝牙 4.0 
信 标 .NFC 会 员 卡 .WiFi 指纹 技术 .MEMS 顾客 活动 热力 图 .3D 传 感 十 视频 监控 十 人 脸 识 
别 技术 .LED 照明 射频 追踪 技术 .Euclid Zero 技术 。 

Euclid Zero 会 识别 出 带 WiFi 配置 的 移动 设备 ,并 且 不 需要 顾客 自己 接 入 商场 的 网 络 ， 
就 可 以 记录 并 分 析 客 流 情况 。 比 如 : 有 多 少 顾客 、 新 老 顾 客 占 比 、 停 留 时 间 多 长 .到 访 频 率 
如 何 \ 有 多 少 是 被 橱窗 内 的 海报 或 者 摆设 吸引 而 走 进 店 里 等 数据 。 而 这 些 数 据 可 以 帮助 商 
家 更 全 面 地 了 解 顾客 群 ,进而 优化 服务 策略 、 提 升 收益 。 

通过 线 下 信息 采集 体系 可 以 捕捉 在 广场 里 面 所 有 的 智能 手机 用 户 的 行 迹 路 线 . 所 关注 
的 商品 和 消费 习惯 ,然后 通过 会 员 体系 就 可 以 掌握 所 有 会 员 的 各 类 信息 和 其 特有 的 相关 产 
品 喜 好 。 

建立 购物 中 心 实体 店 的 线 上 5D 全 景 购物 中 心 ,通过 线 上 5D 全 景 购物 中 心 来 挖掘 线 上 
客流 并 打通 线 上 线 下 的 交互 经 营 ,利用 支付 宝 、 易 支付 等 解决 支付 问题 。 

线 上 可 以 通过 portal 页 将 用 户 导 入 该 品牌 的 天 猫 店 、 支 付 服务 窗 、App、 微 信 公众 账号 
等 。 一 旦 导 流 系统 完成 ,就 可 以 通过 portal 页 将 实体 店 、 天 猫 店 手机 App、 企 业 支 付 账号 和 
微 博 等 互联 网 产品 进行 整合 营销 。 与 目前 行业 中 广泛 应 用 的 简单 CPS 广告 相 比 ,前 者 的 针 
对 性 更 强 , 转 化 率 更 高 。 

当 一 位 已 注册 的 客人 进入 实体 店 , 监 控 后 台 就 能 认 出 来 ,他 过 往 的 所 有 互动 记录 、 喜 好 
便 会 一 一 在 后 台 呈 现 。 通 过 对 实体 店 顾客 的 电子 小 票 . 行 走路 线 、 停 留 区 域 的 分 析 , 来 判别 
消费 者 的 购物 喜好 ,分 析 购 物 行为 ,购物 频率 和 品类 搭配 习惯 。 

3. 利用 大 数据 进行 运营 优化 

(1) 优化 会 员 生命 周 期 管理 : 购物 中 心 运营 策略 是 立足 于 “经 营 客流 ”。 单 个 消费 者 的 
单 日 消费 轨迹 追踪 ,利用 价值 并 不 高 ,而 影响 最 大 的 是 会 员 生 命 周 期 。 通 过 对 会 员 总 体 的 生 
命 周 期 管理 ,可 以 准确 发 现 会 员 维 护 节点 期 \ 平 台 期 、 高 价值 消费 期 和 预计 的 流失 期 一 一 只 
有 把 握 其 中 的 规律 , 才 有 助 于 指导 日 常 商业 运营 的 会 员 管理 。 

(2) 精准 获取 消费 者 购物 喜好 。 累 积 不 同 用 户 对 品牌 和 折扣 喜爱 程度 的 数据 ,依托 成 





上 第 11 章 。 爹 咒 大 雪 据 解 六 委 [27 
熟 门店 的 相关 数据 ,再 根据 新 开门 店 所 在 城市 的 用 户 分 析 . 可 以 导出 新 开门 店 组 货 和 招商 的 
指导 意见 。 

OO 商家 销售 经 营 数据 库 的 建立 。 管 理 招商 和 科学 精准 的 商铺 定价 ; 调整 购物 中 心 科 
学 合理 的 业态 配 比 。 

@ 商家 销售 经 营 数据 库 的 管理 。 

@ 全 维度 数据 分 析 体 系 : 通过 建立 体系 化 分 析 和 矩阵 ,可 以 了 解 到 经 营业 绩 下 降 或 增长 
的 更 深层 原因 ,从 而 对 症 下 药 , 对 商户 进行 更 加 精准 的 扶持 管理 ,从 而 实现 更 高 的 销售 额 ,最 
终 管理 方 获得 更 高 的 租金 收益 。 

@ 商户 经 营 扶持 的 业务 平台 : 针对 商户 扶持 管理 的 大 数据 业务 平台 ,能 够 提供 商户 客 
流 、 销 售 .产品 更 新 .展示 .调价 ,甚至 生产 设计 等 各 个 方面 的 信息 和 预 判 指引 ,让 商户 从 传统 
销售 模式 转 为 预测 销售 模式 。 

(3) 会 员 消 费 行为 数据 库 的 建立 。 

@ 通过 对 客户 基础 数据 和 消费 数据 的 分 析 , 将 客户 合理 细 分 。 

@ 通过 对 客户 多 维度 综合 考量 ,充分 挖掘 客户 价值 ,开展 多 种 线 下 线 上 综合 营销 手段 ， 
达到 精准 营销 .立体 营销 的 目的 ,并 节约 营销 推广 成 本 。 

@ 加 强 忠 实 会 员 的 维系 , 借 活跃 会 员 口 碑 相 传 ,提高 品牌 美誉 度 。 

(4) 会 员 消 费 行为 数据 库 的 管理 。 

全 生命 周期 管理 体系 : 与 传统 商业 对 会 员 管 理 只 分 析 个 体会 员 的 单 点 指标 ,如 个 体会 员 
的 活跃 度 、 消 费 情况 等 相 比 ,消费 者 价值 * 全 生命 周期 管理 ”理念 ,是 基于 对 全 体会 员 的 研究 。 

通过 对 会 员 总 体 生 命 周期 管理 ,可 以 准确 发 现 会 员 的 维护 节点 期 .平台 期 .高 价值 消费 
期 和 预计 的 流失 期 。 对 即将 进入 维护 节点 期 和 流失 期 的 会 员 ,进行 最 大 力度 的 维护 管理 ,使 
其 重新 认识 作为 会 员 的 价值 所 在 。 

(5) 大 数据 技术 的 几 个 运用 。 

@ 数据 抓 取 : 数据 抓 取 作为 大 数据 建设 的 基础 ,提供 最 广泛 的 数据 来 源 。 

@ POS 系统 管理 每 一 家 店铺 的 销售 。 

@ MIS 系统 掌握 每 一 天 的 销售 变化 。 

@ 车 流 统 计 、 客 流 统计 和 客流 属性 管理 对 应 数据 。 

@ 客流 管理 : 客流 管理 是 对 客流 数据 加 以 统计 和 分 析 ,进行 多 维度 研究 。 

@ App 管理 跟踪 服务 。 

@ CRM 社 群 : 自 建 大 数据 体系 ,依托 完善 的 经 营 数据 和 消费 轨迹 数据 ,精准 分 析 并 进 
行营 销 投 放 。 整 个 CRM 模式 中 ,把 消费 者 分 成 15 个 层级 ,每 个 层级 都 可 以 通过 合理 方法 ， 
进行 精准 推送 ,降低 对 顾客 的 骚扰 程度 ,获取 最 大 送 达 率 。 

图 交互 服务 : 建立 App 为 消费 者 提供 延伸 服务 .利用 公众 信息 服务 台 和 现场 触摸 自助 
设备 ,提供 查询 .导购 .促销 .优惠 券 及 停车 指导 等 服务 ; 借助 iBeacon 技术 ,开展 大 流量 的 数 
据 下 载 和 产品 推送 服务 。 


11.5 金融 大 数据 带 来 的 产业 变革 


1. 机 器 学 习 快 速 发 展 ,将 会 在 金融 风险 管理 领域 广泛 应 用 
数据 科学 家 人 才 本 身 的 供需 关系 将 会 朝 着 更 加 平衡 的 方向 发 展 。 在 反 欺 诈 和 风 控 领域 
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将 会 使 用 更 加 成 熟 的 技术 来 改善 风 控 模型 本 身 , 并 且 加 速 发 展 实时 分 析 监控 和 预警 。 这 些 
快速 的 发 展 和 变化 会 来 自 于 业界 领导 者 的 传授 和 在 现实 世界 的 实践 与 应 用 . 

2. 金融 界 大 数据 将 引领 产业 发 展 和 促进 产业 变革 

每 一 年 我 们 都 能 看 到 银行 为 了 适应 新 技术 而 加 大 油门 快速 前 进 ,同时 在 组 织 架构 方面 
非常 保守 。 业 务 和 用 户 在 2016 年 都 将 要 激增 而 且 会 非常 多 变 , 结 果 就 是 在 广阔 的 市 场 导致 
更 强 的 可 观察 到 的 和 可 衡量 的 业务 大 量 回归 (不 只 是 成 本 的 下 降 )。 

3. 数据 治理 合 规 性 更 加 深入 地 集成 到 大 数据 平台 

为 了 找到 一 个 能 够 在 合 规 性 方面 提供 更 强大 功能 的 数据 解决 方案 ,许多 银行 都 购买 或 
者 开发 了 单 点 解决 方案 ,再 不 行 就 是 用 已 经 运行 很 多 年 的 传统 解决 方案 平台 ,但 是 这 些 解决 
方案 都 无 法 应 对 现今 大 规模 爆发 的 数据 。 幸 亏 现在 有 越 来 越 多 的 Hadoop 改进 方案 来 进行 
数据 治理 ,改善 血统 和 提供 数据 质量 。 更 重要 的 是 ,这 些 新 数据 平台 能 够 超越 Hadoop 平台 
达到 传统 数据 存储 的 效果 ,并 且 做 得 更 加 大 容量 、 更 快 , 且 在 细节 上 达到 合 规 性 要 求 。 此 外 在 
以 后 将 继续 看 到 为 融合 监管 和 风险 控制 (RDARR) 中 心服 务 的 叫做 “数据 湖 "方面 的 更 多 进展 。 

4， 金融 服务 业 利用 物 联网 向 数据 服务 方面 转变 

这 一 波浪 潮 正 是 抓 住 大 数据 吸引 力 炒作 /发 力 的 好 时 机 ,同时 金融 服务 应 用 的 问题 也 很 
多 。 物 联网 数据 在 许多 行业 应 用 中 已 经 实践 (电信 ,零售 ,制造 业 ) ,这些 行业 驱动 了 物 联网 
的 数据 的 需求 并 且 处 于 垄断 地 位 。 那 么 对 于 银行 来 说 物 联网 数据 是 否 能 够 用 在 ATM 或 者 
移动 银行 业务 中 ?这 些 都 是 在 多 渠道 实时 数据 流 中 值得 探索 的 。 例 如 ,实时 ,多 渠道 的 商业 
行为 可 以 使 用 物 联网 数据 对 银行 零售 客户 在 正确 的 时 间 点 提供 适时 的 报价 。 或 许 我 们 反 过 
来 想 想 ,金融 公司 可 以 将 自己 的 服务 内 嵌 到 用 户 的 某 种 “东西 "或 者 设备 或 者 其 他 和 客户 接 
触 的 点 上 ,不 在 那些 交易 设施 上 ,而 是 在 家 。 

5. 软件 供应 商 集 市 场 .咨询 和 投资 管理 形成 一 个 综合 体 

鼓吹 与 “从 大 数据 获得 更 多 利益 "相关 的 新 闻 头 条 越 奏 越 响 。 最 终 ,这 些 观点 都 将 被 金 
融 终端 用 户 、 可 见 的 利益 (或 者 不 可 见 .无 法 衡量 的 利益 ) 还 有 易 用 性 等 因素 决定 。 大 数据 平 
台 的 建设 核心 将 要 提供 的 一 个 桥 染 就 是 大 数据 ,并 且 将 其 锐 化 突出 。 我 们 已 经 看 到 了 市 场 
数据 供应 商 最 喜欢 的 动作 ,但 是 并 没有 其 他 商业 用 户 的 应 用 ,应 朝 这 个 方向 努力 (CRM， 
OMS/EMS 等 ) 。 

6. 风险 控制 和 监管 数据 管理 将 继续 成 为 顶级 大 数据 平台 的 重要 任务 

增长 与 银行 用 户 中 心 相关 的 商业 行为 将 成 为 银行 战略 的 重要 举措 ,会 有 很 多 的 银行 把 
未 来 的 战略 与 大 数据 关联 起 来 。 不 论 你 的 银行 是 不 是 基于 发 达 的 数据 驱动 的 公司 , 朝 着 银 
行业 务 预 测 分 析 发 展 将 是 一 条 漫长 的 道路 ,会 面临 很 大 的 挑战 。 同 时 也 是 一 个 必要 的 需求 
和 被 公司 首席 高 官 确认 有 意义 的 事 。 除 非 老 天 开 恩 或 者 监管 机 构 放松 要 求 , 否 则 风险 控制 
和 监管 仍然 是 下 一 年 所 有 金融 机 构 的 首要 挑战 。 

7. 金融 服务 业 采 用 Hadoop 作为 关系 型 数据 库 进行 存 取 将 会 大 大 增加 

大 家 在 不 同 的 时 间 使 用 了 相同 的 技术 之 间 并 没有 任何 差别 .“ 长 尾 ”效应 还 很 遥远, 但 
是 中 小 型 银行 将 会 从 Hadoop 的 以 下 几 方面 获 益 。 

(1) 供应 商 将 整合 整套 集成 解决 方案 .服务 .平台 。 


本 第 11 章 全 融 大 数据 解决 方案 

(2) 用 户 社 区 持续 成 长 ,并 能 提供 一 个 基础 参考 作为 突破 口 。 

(3) 数据 降 载 成 为 当今 Hadoop 一 个 “经 典 ” 应 用 (相对 来 讲 ) ,同时 许多 大 数据 专家 继 
续 在 更 大 的 数据 集合 上 前 进 ,未 来 将 会 有 更 多 的 普通 人 加 入 到 大 数据 应 用 的 行列 。 

8. 金融 服务 “大 数据 终结 App” 理 论 在 市 场 得 到 了 越 来 越 多 的 认可 

FinTech 已 经 孵化 了 两 三 年 ,形成 了 大 数据 平台 和 用 户 间 从 前 端 到 终端 的 连接 。 和 希望 
看 到 更 多 的 银行 作为 证 明 概念 来 运行 这 些 应 用 ,这 些 实践 将 检验 软件 所 提供 的 “完整 解决 方 
案 " 的 基础 。 前 端 到 终端 和 后 端 都 应 进行 整合 ,而 不 是 分 割 。 大 家 可 以 看 到 市 场 迅 速 地 从 服 
务 集 扩 展 到 后 端 ,这 将 迎 来 银行 业 关 于 如 何 定位 大 数据 软件 ”和 ”传统 软件 ”的 激烈 讨论 。 

9. 变化 来 了 ,获得 前 进 动力 的 最 后 一 次 机 会 

随 着 越 来 越 多 的 高 可 靠 大 数据 平台 的 出 现 , 安 全 专家 、 深 层次 的 丰富 元 数据 、 集 成 LEI 
和 其 他 标准 成 为 一 个 严峻 的 现实 。 传 统 的 数据 方法 是 有 效 的 ,只 是 需要 一 些 思想 来 充分 利 
用 新 的 解决 方案 一 一 例如 处 理 架 构 和 数据 建 模 。 更 深 一 层 , 随 着 大 数据 工作 在 前 台 ,市 场 营 
销 和 风险 控制 方面 形成 的 工作 模式 ,我 们 能 够 看 出 这 里 面 在 办 公 的 中 后 期 业务 上 有 明显 和 
巨大 的 数据 重 倒 部 分 ,这 些 重 一 能 够 很 容易 地 应 用 在 现 有 的 数据 湖 中 。 我 们 预计 ,在 中 等 的 
商业 风险 评估 与 性 能 相关 的 大 数据 的 商业 行为 将 迅速 增加 。 更 进一步 ,我 们 将 看 到 关于 如 
何 切 实 带 来 后 台 功 能 的 更 深层 次 的 交流 (合作 等 ) 。 

10. 银行 的 机 构 方 将 开始 采用 并 从 零售 业务 的 方式 来 获取 线索 增进 对 于 市 场 目 标 

客户 的 了 解 

有 一 些 纯 B2B 的 公司 利用 大 数据 来 改善 客户 商情 ,但 是 大 部 分 时 候 他 们 处 于 B2C 业务 
的 不 利 地 位 ,如 信用 卡 业 务 、 银 行 零售 业 、 财 富 管理 或 者 借贷 业务 。 一 个 简单 的 跨 界 就 是 基 
金 的 配置 (大 型 共同 基金 经 理 ) 从 财富 顾问 网 络 和 经 纪 人 相互 作用 来 改善 数据 收集 的 过 程 ， 
同时 也 提高 产品 利用 率 。 一 旦 被 从 客户 群 中 移 除 ,这 对 于 共同 基金 通常 是 非常 重要 的 ,所 以 
加 强 对 于 机 构 客户 的 理解 显得 尤为 重要 。 

信任 仍然 是 许多 大 型 银行 的 使 用 新 供应 商 *“ 大 数据 ”的 主要 因素 。 换 名 话说 , 当 你 展望 
下 一 年 时 ,将 会 有 很 大 的 来 自 管理 层 的 推动 力 , 来 把 大 数据 项 目 移出 IT 然后 放 到 商业 用 户 
手中 。 为 了 达成 目的 ,我 们 需要 考虑 架构 、 功 能、 速度 、 可 用 性 、 安 全 性 等 问题 。 与 往常 一 样 ， 
采用 传统 的 严谨 性 以 全 新 的 架构 布局 并 没有 改变 ,传统 架构 将 在 成 本 和 缓慢 的 进展 中 开始 
在 新 的 Hadoop 表现 和 融合 的 大 数据 的 架构 过 程 中 逐步 展现 。 

更 进一步 ,将 来 一 定 会 有 更 加 强大 的 工具 来 处 理 现 有 的 工作 ,例如 数据 治理 ,数据 质量 、 
参考 数据 管理 ,标准 。 这 将 要 求 各 方 持续 的 教育 , 即 那些 IT 以 外 的 继续 教育 ,用 以 了 解 市 
场 的 快速 发 展 。 

最 后 ,针对 平衡 开源 和 供应 商 解决 方案 将 展开 长 期 讨论 。 不 是 所 有 的 开源 项 目 设计 之 
初 就 符合 机 构 客户 ,开源 项 目 传递 了 一 种 敏捷 性 需求 开发 一 一 每 个 银行 的 需求 都 在 不 停 变 
化 ,为 大 数据 找到 合适 的 点 才 是 更 加 重要 的 。 总 而 言 之 ,2017 年 的 市 场 将 会 不 断 前 行 ,混乱 
随 之 减少 ,同时 会 使 大 数据 的 海洋 变 得 风平浪静 。 
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我 国 的 生产 制造 领域 ,已 经 从 最 初 的 粗放 型 粗 加 工 阶段 升级 进入 了 精 加 工 数控 加 工 阶 
段 ,制造 企业 信息 化 程度 已 经 有 了 很 大 提升 ,但 是 相对 于 发 达 国 家 高 端 制造 业 以 及 先进 制造 
水 平 能 力 来 说 ,我 国 制造 企业 还 有 很 多 工作 要 做 ,还 有 大 量 改进 提高 的 空间 。 其 中 ,大 数据 
对 制造 领域 的 价值 越 来 越 被 认可 ,相关 的 一 些 应 用 已 经 在 逐步 开展 起 来 ,成 为 助力 我 国 制造 
业 产 业 升级 转型 的 一 个 重要 推动 力 。 大 数据 相关 的 技术 应 用 与 创新 ,已 成 为 助力 我 国 制造 
领域 迈 向 高 端 制造 高 水 平 制造 层面 的 迫切 需求 。 

对 于 传统 的 制造 业 来 说 , 随 着 企业 信息 化 的 逐步 深入 ,数据 积累 到 一 定量 之 后 ,要 想 从 
这 些 数据 中 挖掘 出 更 有 价值 的 信息 ,来 获得 深刻 的 客户 洞察 ,及 时 捕捉 客户 需求 的 变化 趋 
势 ,就 需要 传统 制造 企业 以 客户 为 导向 ,了 解 客户 的 兴趣 、 偏 好 ,通过 各 种 渠道 来 获得 用 户 对 
产品 的 反馈 ,需要 处 理 好 大 数据 ,了 解 客户 行为 ,将 客户 喜欢 的 产品 及 时 交付 。 通 过 对 大 数 
据 的 获取 ,发 据 和 分 析 , 企 业 可 以 更 加 经 济 地 从 多 样 化 的 数据 源 中 获得 更 大 价值 ,促进 制造 
业 按 客户 需求 转型 。 生 产 设备 实时 监控 数据 ,汇总 分 析 辅 助 企 业 决策 。 在 大 型 企业 中 ,大 量 
加 工 设备 的 实时 运转 情况 汇总 到 一 个 平台 ,统计 信息 包括 年 度 月 度 的 设备 忙 闲 时 、 加 工 磨损 
部 件 更 换 次 数 , 设 备 出 故障 次 数 和 原因 等 ,这 些 信息 汇总 给 企业 决策 层 , 以 便 了 解 生产 加 工 
密度 ,合理 安排 加 工 批 次 ,合理 接 单 ,保持 设备 一 直 运 转 不 至 于 空闲 ,总 结 关键 部 件 磨损 规律 
以 合理 安排 备件 更 换 , 总 结 分 析 设 备 故障 规律 以 合理 安排 预 检 维 修 。 多 方面 的 数据 长 期 记 
录 累 加 ,便于 企业 利用 数据 分 析 有 效 因素 ,辅助 决策 大 幅度 提高 生效 率 。 

生产 过 程 操作 数据 记录 ,汇总 分 析 辅 助 工艺 水 平 提升 。 在 制造 企业 ,对 于 加 工 过 程 的 各 
类 操作 进行 记录 ,并 把 记录 关联 到 最 终 产 品 的 质量 上 ,通过 长 时 间 的 阶段 数据 汇总 ,统计 分 
析 操 作 过 程 中 的 哪些 环节 会 影响 最 终 产 品 的 质量 ,辅助 加 工 企业 进行 工艺 的 调整 改进 ,促进 
工艺 水 平 的 提升 。 

生产 环境 的 监测 数据 ,汇总 分 析 辅 助 生产 环境 调整 。 对 于 某 些 加 工 过 程 中 ,环境 因素 影 
响 最 终 产品 质量 和 效果 的 情况 ,在 生产 中 通过 传感器 实时 收集 温度 、 湿 度 、 磁 场 强度 等 环境 
数据 ,汇总 分 析 关 联 最 终 产 品质 量 的 因素 ,并 不 断 调整 相关 因素 再 记录 ,最 终 找到 能 达到 产 
品质 量 最 高 合格 率 的 环境 数据 值 , 设 定 为 最 佳 生产 环境 参数 。 


12.1 全 球 工业 信息 化 发 展 历程 和 现状 


西方 发 达 国家 是 在 基本 完成 工业 化 后 ,开始 推进 信息 化 的 ,其 信息 化 是 在 成 熟 工业 化 的 
基础 上 发 展 起 来 的 ,因此 在 总 体 上 呈现 出 先 工业 化 、 后 信息 化 的 梯度 发 展 格局 。 信 息 与 通信 
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技术 已 经 并 且 还 将 继续 成 为 促进 发 达 国家 经 济 增长 强大 的 驱动 器 ,因此 ,作为 已 经 实现 了 工业 
化 的 国家 ,其 信息 技术 应 用 和 信息 化 所 追逐 的 目标 仍然 包括 传统 产业 的 改造 升级 、 新 兴 产 业 的 
发 展 ,以 及 推动 信息 和 知识 的 生产 ,否则 就 不 可 能 保持 他 们 在 全 球 竞 争 中 的 “发 达 国 家 ”地 位 。 

纵 观 美 欧 日 韩 各 国 的 发 展 战略 ,可 以 看 出 ,各 国 在 实施 整体 信息 化 进程 中 , 均 注重 推进 
先进 制造 技术 与 信息 科技 技术 的 进一步 融合 ,提供 传统 产业 竞争 力 。 总 体 上 看 ,存在 着 两 大 
推动 力量 : 一 是 传统 制造 业 借助 信息 化 技术 实施 现代 化 的 管理 ,设计 和 制造 ,从 而 提高 生 
产 、 管 理 效率 ; 另 一 个 是 将 大 量 的 信息 化 技术 融入 传统 制造 业 产品 流程 ,改进 原 有 的 产品 制 
造 过 程 ,服务 密集 型 导向 的 制造 趋势 日 益 明显 。 


12.1.1 美国 工业 信息 化 发 展 历程 和 现状 

1. 美国 工业 信息 化 早期 阶段 

1946 年 ,美国 福特 公司 的 机 械 工程 师 哈 德 首先 用 “自动 化 ”一 词 来 描述 生产 过 程 的 自动 
操作 。1952 年 , 迪 博 尔 德 的 (自动 化 ) 一 书 出 版 ,他 在 书 中 认为 “自动 化 "是 分 析 组 织 和 控制 
生产 过 程 的 手段 。 在 1952 年 即 商 用 电子 计算 机 问世 的 第 二 年 ,美国 柏 森 斯 公司 就 以 电子 管 
元 件 为 基础 ,设计 了 数控 装置 ,试制 了 第 一 台 三 坐标 数控 铣床 。 

1974 年 ,也 就 是 Intel 公司 第 一 个 微 处 理 芯片 问世 的 第 三 年 ,第 五 代 使 用 微 处理 芯 片 和 
半导体 存储 器 的 计算 机 数控 装置 研制 成 功 。20 世纪 80 年 代 初 ,IBM 公司 率先 将 计算 机 辅 
助 设计 (CAD) 技 术 应 用 于 产品 设计 。 随 后 ,计算 技术 的 迅猛 发 展 使 得 传统 的 自动 化 技术 得 
到 了 全 面 的 数字 化 改造 ,使 产品 研发 .设计 .生产 测试. 供销 等 各 个 环节 逐步 实现 智能 化 和 
网 络 化 ,信息 化 和 工业 化 的 融合 进入 了 一 个 全 新 的 发 展 时 期 。 

2. 计算 机 集成 制造 

从 20 世纪 80 年 代 中 期 开始 ,美国 大 力 提 倡 信息 技术 (当时 主要 是 计算 机 技术 ,如 网 络 、 
数据 库 、 各 种 工业 用 的 软件 等 ) 在 制造 业 中 的 应 用 ,目的 是 改变 20 世纪 70 年 代 因 轻视 制造 
业 而 造成 的 美国 产品 地 位 落后 的 状况 ,夺回 生产 优势 。1973 年 美国 人 约瑟夫 ，。 哈 灵 顿 
(J. Harrington) 提 出 了 CIM(Computer Integrated Manufacturing) 的 概念 , 即 计算 机 集成 制 
造 。 哈 灵 顿 认为 ,企业 生产 的 组 织 和 管理 应 该 特别 强调 以 下 两 个 观点 。 

(1) 企业 中 的 各 种 生产 经 营 活 动 是 不 可 分 割 的 ,是 一 个 有 机 的 整体 ,需要 统一 加 以 考虑 。 

(2) 整个 生产 制造 过 程 实质 上 是 信息 的 采集 、 传 递 和 加 工 处 理 的 过 程 。 

CIM 是 一 种 组 织 、 管 理 与 运行 企业 的 理念 , 它 将 传统 的 制造 技术 与 现代 信息 技术 、 管 理 
技术 、 自 动 化 技术 、 系 统 工程 技术 等 有 机 结合 ,借助 计算 机 技术 、 通 信 技 术 使 企业 产品 全 生命 
周期 各 阶段 活动 中 有 关 人 /组 织 ` 经 营 管理 和 技术 三 要 素 及 其 信息 流 、 物 流 和 价值 流 有 机 集 
成 并 优化 运行 ,实现 企业 制造 活动 的 信息 化 、 智 能 化 ,集成 优化 ,以 达到 产品 上 市 快 、 高 质 \ 低 
耗 、 服 务 好 、 环 境 清洁 ,进而 提高 企业 的 柔性 、 健 壮 性 、 敏 捷 性 ,使 企业 赢得 市 场 竞 争 。 

3. 基于 信息 技术 的 敏捷 制造 

20 世纪 90 年 代 , 美 国 根据 本 国 制造 业 面 临 的 挑战 和 机 遇 , 为 增强 制造 业 的 竞争 能 力 和 
促进 国家 经 济 增长 ,克林顿 总 统 提 出 了 先进 制造 技术 的 6 项 行动 。 

其 中 的 敏捷 制造 (Agile Manufacturing.AM) ,是 美国 为 恢复 其 在 世界 制造 业 的 领导 地 
位 而 提出 的 一 种 全 新 概念 的 生产 方式 ,是 美国 在 21 世纪 的 制造 战略 。 
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敏捷 制造 是 将 柔性 制造 技术 ,熟练 掌握 生产 技能 的 有 知识 的 劳动 力 以 及 促进 企业 内 部 
和 企业 之 间 相 互 合作 的 灵活 管理 机 制 集成 在 一 起 ,通过 共同 的 基础 设施 ,对 迅速 改变 或 者 无 
法 预见 的 消费 者 需求 和 市 场 机 遇 做 出 快速 响应 。 

敏捷 制造 将 制造 系统 空间 扩展 到 全 国 , 通 过 全 美工 厂 网 络 建立 信息 交流 的 高 速 公 路 , 建 
立 全 新 的 企业 一 一 “虚拟 企业 "或 虚拟 公司 ”, 以 竞争 能 力 和 信誉 为 依据 选择 合作 伙伴 组 成 
动态 公司 ,进行 企业 大 联合 ,共同 冒险 .共同 获 利 。 这 是 利用 信息 技术 打破 时 空 阻隔 的 一 种 
新 型 企业 ,是 一 批 为 了 完成 某 一 特定 任务 ,利用 电子 手段 在 短 时 间 内 迅速 建立 起 灵活 关系 的 
合作 者 所 构成 的 协作 网 络 ,不同 于 传统 观念 上 的 企业 。 如 图 12-1 所 示 为 敏捷 制造 跨 企 业 合 
作 模 式 。 
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图 12-1 敏捷 制造 跨 企业 合作 模式 


4. 美国 工业 信息 化 现状 

进入 21 世纪 ,美国 相继 发 布 (21 世纪 信息 技术 计划 兴 网 络 与 信息 技术 研究 开发 计划 》 
和 《网 络 空间 安全 国家 战略 》。 美 国 是 一 个 信息 化 领先 于 世界 各 国 的 国家 ,政府 早 在 1993 年 
就 公布 了 《国家 信息 基础 设施 : 行动 纲领 )。 为 了 能 够 将 美国 的 影响 扩大 到 全 球 ,美国 在 
1994 年 9 月 提出 建立 “全 球 信息 基础 设施 ”的 倡议 ,建议 联通 各 国 的 国家 信息 基础 设施 ， 
实现 全 国之 间 的 信息 共享 。 在 1997 年 颁布 的 全 球 电 子 商 务 框架 ,鼓励 在 全 球 范 围 内 促 
进 电子 商务 发 展 。1998 年 ,美国 麻 省 理工 学 院 C(MIT) 的 凯 文 。 阿 什 顿 (Kevin Ashton) 在 
Procter&Gamble 公司 演讲 中 第 一 次 提出 物 联 网 (Internet of Things) 的 概念 , 即 通过 在 各 种 
物体 上 增加 射频 身份 识别 或 其 他 传感器 .组 成 一 个 新 的 网 络 ,并 使 现 有 的 互联 网 步 和 人 一 个 新 
阶段 。2002 年 ,美国 出 台 网 络 空间 国家 安全 战略 ,提出 了 5 大 优先 发 展 领域 和 47 项 行动 建 
议 , 将 信息 网 络 安全 置 于 国家 战略 高 度 。 

2008 年 以 来 电子 商务 的 快速 发 展 也 促进 了 产业 不 断 细 化 ,一 些 新 型 的 电子 商务 模式 呈 
现 出 良好 的 发 展 势头 。2008 年 9 月 ,谷歌 公司 与 通用 电气 公司 对 外 宣布 共同 开发 清洁 能 源 
业务 ,为 美国 打造 国家 智能 电网 。2009 年 1 月 .IBM 首席 执行 官 建议 政府 投资 新 一 代 的 智 
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能 基础 设施 , 即 “ 智 慧 地 球 ” 战 略 : 将 感应 器 租 入 和 装备 到 电网 、 铁 路 ,建筑 . 大 坝 , 油 气管 道 
等 各 种 物体 中 ,形成 物 物 相 联 ,然后 通过 超级 计算 机 和 云 计算 将 其 整合 ,实现 经 济 社会 和 物 
理 世 界 融 合 。 
总 体 来 说 ,美国 在 推行 信息 化 过 程 中 注重 在 扩充 全 球 势力 范围 和 解决 国内 问题 时 的 信 
息 化 导向 ,努力 建设 充满 活力 的 “网 络 和 信息 技术 生态 环境 ”。 另 一 方面 , 云 计算 方兴未艾 ， 
凭借 其 对 全 球 数字 信息 资源 的 超 强 整合 能 力 , 进 一 步 依托 其 高 性 能 计算 和 云 计 算 技 术 的 领 
先 优势 ,为 全 球 客户 提供 姻 新 的 海量 数据 密集 型 服务 解决 方案 。 


12.1.2 日 本 工业 信息 化 发 展 历程 和 现状 

1. 日 本 工业 信息 化 早期 阶段 

20 世纪 60 年 代 以 来 , 微 电 子 半导体 技术 以 及 集成 电路 的 发 展 ,促进 了 日 本 电子 与 信息 
产业 乃至 整个 工业 信息 化 的 发 展 。 日 本 自 1963 年 引进 集成 电路 (IC) 生 产 技术 后 ,20 世纪 
70 年 代 开 发 出 大 规模 集成 电路 (LSI) ,20 世纪 80 年 代 进 入 超大 规模 集成 电路 (VLSI 时代。 
1970 一 1982 年 ,VLSI 以 年 均 50% 的 速度 发 展 ,使 得 整个 电子 产业 的 增长 速度 达到 了 17%。 
同时 ,由 于 微 电 子 半导体 技术 的 迅速 发 展 ,集成 电路 的 生产 成 本 直线 下 降 , 带 动 整个 制造 产 
业 的 升级 更 新 ,引发 了 一 场 深刻 的 社会 变革 。 

(1) 日 本 计算 机 产业 的 迅速 崛起 和 壮大 。 伴 随 LSI 技术 水 平 的 提高 ,计算 机 的 性 能 越 
来 越 优异 ,价格 也 更 低 , 日 本 计算 机 实现 了 超 高 速 型 和 超 小 型 化 ,并 且 不 断 从 工业 领域 深入 
到 家 庭 等 社会 应 用 。 

(2) 日 本 产业 机 器 人 的 广泛 应 用 。 由 于 微 电 子 技术 的 飞跃 进步 ,产业 机 器 人 的 成 本 降 
低 , 推 动 了 机 器 人 向 生产 线 的 应 用 ,不 仅 应 用 于 工业 领域 ,而 且 应 用 于 农林 水产、 矿业 、 医 疗 
及 第 三 产业 等 , 极 大 地 提高 了 生产 效率 。 

(3) 汽车 产业 的 发 展 。 日 本 汽车 制造 业 率先 推广 使 用 机 器 人 自动 生产 线 和 计算 机 控 
制 , 使 生产 率 大 幅 提高 ,质量 提升 且 稳 定 ,一 举 占据 了 世界 市 场 的 相当 份额 。 

(4) 日 本 不 断 加 快 以 微 电 子 半导体 技术 为 基础 的 计算 机 、 数 据 图 像 传输 处 理 、 卫 星 通 
人 和信、 网络 等 信息 技术 产业 的 发 展 速度 ,并 将 信息 技术 及 其 产品 应 用 到 社会 的 各 个 领域 ,从 生 
产 到 办 公家 庭 ,迅速 提升 了 整合 社会 的 信息 化 程度 。 

1995 年 ,日 本 东京 大 学 成 立 了 机 械 制造 信息 学 系 ,开始 重视 制造 信息 学 在 制造 系统 中 
的 地 位 和 作用 ,并 开展 了 相关 研究 。 正 是 由 于 日 本 政府 重视 信息 技术 的 投资 , 才 使 日 本 的 信 
息 产 业 得 以 快速 发 展 。 

2. 智能 制造 系统 项 目 


日 本 在 1991 年 1 月 发 起 了 智能 制造 系统 (Intelligent Manufacturing System,IMS ) 的 
国际 合作 研究 开发 计划 。 该 项 计划 旨 在 组 合 工 业 发 达 国 家 的 先进 制造 技术 ,包括 日 本 的 工 
厂 与 车 间 的 专业 技术 、 欧 洲 共同 体 的 精密 工程 专业 技术 和 美国 的 系统 专业 技术 ; 探索 将 研 
究 成 果 转 化 为 生产 技术 的 途径 ; 开发 下 一 代 的 标准 化 技术 。 其 重点 是 实现 当前 生产 技术 的 
标准 化 ,开发 出 能 不 受 生产 环 境 和 国界 限制 .彼此 合作 的 高 技术 生产 系统 。 通 过 各 发 达 国家 
的 共同 研究 ,制造 业 在 接受 订货 .产品 开发 和 设计 生产、 物流 直至 经 营 管理 的 全 过 程 中 ,做 
到 装备 生产 线 的 自律 化 ,并 实现 自律 化 的 装备 和 生产 线 在 系统 整体 上 的 协调 和 集成 ,由 此 来 
适应 制造 活动 全 球 化 的 发 展 趋势 ,减少 过 于 庞大 的 重复 投资 ,并 通过 先进 .灵活 的 制造 过 程 
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来 解决 制造 系统 中 的 人 因 问 题 。“ 自 律 化 ?是 指 能 够 根据 周围 环境 以 及 生产 作业 状况 自主 地 
进行 判断 并 采取 适当 的 行动 。 欧 美 有 许多 国家 参加 了 这 一 计划 。 人 们 对 智能 制造 系统 信息 
技术 的 作用 给 予 了 很 高 的 期 望 。 虽然 最 终 还 是 没有 实现 完全 的 智能 制造 ,但 对 推进 制造 系 
统 超 智能 化 方向 发 展 起 到 了 重要 的 作用 。 


12.1.3 德国 工业 信息 化 发 展 历程 和 现状 

1. 德国 工业 信息 化 概述 

欧盟 制造 业 因 为 长 期 以 来 形成 的 产业 文化 ,供应 商 \ 制 造 企业 、 服 务 企业 和 用 户 之 间 业 
已 建立 了 相互 联系 的 广泛 网 络 。 其 成 员 国 拥有 一 流 的 研究 能 力 ,可 以 产生 高 水 平 的 知识 , 具 
有 良好 的 科学 素养 。 另 外 ,欧盟 制造 业 99% 的 企业 都 是 中 小 企业 ,具有 很 好 的 适应 性 、 灵 活 
性 、 创 新 能 力 和 企业 家 精神 ,更 有 利于 促进 和 实现 企业 之 间 合 作 竞争 。 欧 洲 较 早 实现 了 可 持 
续 发 展 战略 ,对 环境 保护 清洁 生产 以 及 环境 友好 生产 过 程 的 大 量 投资 ,已 经 形成 了 新 的 制 
造 模式 。 经 历 了 20 世纪 60 年 代 自动 化 制造 阶段 和 20 世纪 70 年 代 精益 制造 后 日 本 企业 崛 
起 带 来 的 激烈 冲击 ,欧盟 各 国 一 直 在 考虑 如 何 更 好 地 利用 信息 技术 来 建设 信息 经 济 社会 , 增 
强 包括 制造 业 在 内 的 竞争 力 。 为 了 提升 欧洲 制造 业 竞争 力 ,欧盟 委员 会 邀请 来 自 研 究 机 构 
和 产业 界 的 专家 ,经 过 讨论 形成 了 指导 未 来 欧洲 制造 业 发 展 的 《未 来 制造 业 : 2020 年 展 
望 ), 并 于 2004 年 12 月 在 荷兰 恩 斯 赫 德 市 (Enschede) 召开 的 未 来 的 制造 业 (Manufuture) 会 
议 上 发 布 。 在 欧盟 内 部 ,与 企业 信息 化 建设 有 关 的 政府 性 机 构 和 组 织 主要 有 欧盟 委员 会 下 
的 企业 与 工业 总 司 、 信 息 社会 和 媒体 总 司 、 欧 洲 信息 中 心 和 欧洲 经 济 和 社会 委员 会 。 性 质 不 
同 ,职责 也 不 同 ,但 他 们 在 推进 企业 信息 化 建设 方面 相互 协调 、 相 互补 充 , 各 个 机 构 的 职责 、 
出 台 的 政策 规划 和 举办 的 重大 活动 很 少 出 现 重复 的 情况 ,而 是 相互 补充 和 相互 支持 。 

2. 德国 的 “生产 2000” 计 划 

“生产 2000”(Producktion 2000) 计 划 是 由 德国 政府 ` 企 业界. 科技 界 和 工会 组 织 共同 提 
出 的 一 项 战略 计划 。 该 项 目 总 共 投 资 4. 5 亿 马 克 , 执 行 时 间 为 1995 一 1999 年 。 

“生产 2000” 计 划 的 研究 重点 如 下 。 

(1) 产品 的 开发 方法 和 制造 方法 ,特别 要 研究 如 何 缩短 产品 开发 和 产品 制造 的 周期 ,以 
便 对 新 的 市 场 需要 做 出 快速 响应 ; 

(2) 产品 制造 过 程 中 的 经 济 学 , 即 开发 可 重复 利用 的 材料 并 制定 新 材料 的 标准 ,开发 可 
重复 利用 的 产品 ,开发 能 进行 “清洁 制造 "的 制造 过 程 ; 

(3) 面向 制造 的 后 勤学 ,特别 是 研究 加 速 产 品 制造 过 程 和 减少 运输 费用 的 方法 ,同时 也 
应 考虑 减少 对 环境 的 负面 影响 ; 

(4) 面向 制造 的 信息 技术 ,特别 要 研究 通信 技术 ,开发 面向 制造 的 高 效 的 、 可 控 的 系统 ; 

(5) 在 “动荡 ”环境 中 的 生产 , 即 研究 开放 的 、 具 有 学 习 能 力 的 生产 组 织 结构 ,提高 对 市 
场 变 化 的 响应 速度 ; 

(6) 其 他 热门 课题 ,如 全 球 制造 ,企业 协作 和 与 其 有 关 的 标准 。 

3. i2010 战略 计划 

2005 年 6 月 ,欧盟 委员 会 在 比利时 布鲁塞尔 公布 了 一 个 新 的 战略 计划 一 一 《i2010 战略 
计划 : 欧洲 信息 社会 2010》(i2010-Initiative: European Information Society) ,其 目的 在 于 促 
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进 欧盟 经 济 增长 和 创造 就 业 。i2010 战略 计划 是 继 2000 年 欧洲 理事 会 制定 的 里 斯 本 战略 目 
标 “ 到 2010 年 把 欧洲 建设 成 世界 上 经 济 最 活跃 ,最 有 竞争 力 的 知识 经 济 体 ” 后 ,提出 的 又 一 
个 重要 的 战略 计划 ,是 欧盟 为 了 应 对 现代 信息 社会 的 巨大 挑战 的 一 个 产物 。 其 为 欧盟 信息 
化 的 发 展 设 定 了 三 个 目标 : @ 建 设 一 个 统一 的 欧洲 信息 空间 ,向 用 户 提供 在 价格 上 可 以 承 
受 的 、 安 全 的 高 宽带 通信 以 及 内 容 丰 富 的 、 多 样 化 的 、 数 字 化 的 服务 ; @ 在 现代 信息 技术 的 
研究 和 创新 中 ,要 有 世界 水 平 的 表现 ,以 缩小 欧洲 与 其 竞争 对 手 之 间 的 差距 ; @ 建 设 一 个 包 
容 性 的 信息 社会 。 

4. 欧盟 物 联 网 行动 计划 

2009 年 6 月 ,欧盟 委员 会 向 欧盟 提交 了 《欧盟 物 联 网 行动 计划 》, 以 确保 欧洲 在 构建 物 
联网 的 过 程 中 起 主导 作用 。 该 计划 描绘 了 物 联网 技术 应 用 的 前 景 , 并 提出 要 加 强 欧盟 对 物 
联网 的 管理 ,消除 物 联 网 发 展 的 障碍 。 该 行动 计划 提出 以 下 建议 : 加 强 物 联网 管理 ; 完善 
隐私 和 个 人 数据 保护 ; 提高 物 联网 的 可 信和 度 、 接 受 度 和 安全 性 ; 推广 物 联 网 标准 化 ; 加 强 相 
关系 统 与 关键 技术 研发 ; 建立 开放 式 的 创新 环境 ; 增强 机 构 间 协调 ; 加 强国 际 对 话 ; 推广 
物 联网 标签 ,传感器 在 废物 循环 利用 方面 的 应 用 ; 加 强 对 物 联 网 发 展 中 的 无 线 频 谱 与 电磁 
影响 的 监测 ,统计 和 管理 。 而 2004 年 发 布 的 (未 来 制造 业 : 2020 年 展望 报告 ,基于 研发 和 
创新 的 发 展 战略 ,强调 从 个 人 竞争 转向 系统 竞争 ,标准 的 ICT 接口 ; 参与 虚拟 工程 和 虚拟 制 
造 伙 伴 的 开放 网 络 , 积 极 采用 新 的 商业 模式 。 从 欧盟 内 部 来 看 ,不 同 成 员 国之 间 企 业 的 信息 
化 水 平 存 在 巨大 差距 ,数字 鸿沟 明显 。 德 ,法 、 英 等 西欧 国家 企业 信息 化 水 平 较 高 ,而 一 些 东 
欧 国 家 的 信息 化 水 平 却 比 较 落后 。 

5. 德国 工业 4.0 

2013 年 4 月 的 汉诺威 工业 博览 会 上 “工业 4. 0? 项 目 被 正式 推出 。 为 了 在 新 一 轮 工 业 革 
命中 占领 先 机 ,在 德国 工程 院 、. 弗 劳 恩 霍 夫 协会 .西门 子 公司 等 德国 学 术 界 和 产业 界 的 建议 
和 推动 下 ,这 一 研究 项 目 是 2010 年 7 月 德国 政府 (高 技术 战略 2020》 确 定 的 十 大 未 来 项 目 
之 一 一 一 旨 在 支持 工业 领域 新 一 代 革 命 性 技术 的 研发 与 创新 。 在 工业 科研 联盟 的 倡议 下 ， 
在 工业 4.0 平台 上 的 合作 伙伴 们 已 经 为 自己 确立 目标 ,贯彻 德国 政府 的 战略 举措 ,以 确保 德 
国 工业 的 竞争 力 。 从 本 质 上 讲 , 工 业 4.0 包括 将 虚拟 网 络 一 实体 物理 系统 技术 一 体 化 应 用 
于 制造 业 和 物流 行业 ,以 及 在 工业 生产 过 程 中 使 用 物 联 网 和 服务 技术 。 这 将 对 价值 创造 、 商 
业 模 式 、 下 游 服 务 和 工作 组 织 产 生 影响 。 

工业 4.0 计划 具有 巨大 潜力 主要 表现 在 以 下 几 个 方面 。 

(1) 满足 用 户 个 性 化 需求 。 工 业 4. 0 允许 在 设计 ,配置 .订购 规划、 制造 和 运作 等 环节 
能 够 考虑 到 个 体 和 客户 的 特殊 需求 ,而 且 即 使 在 最 后 阶段 仍 能 变动 。 在 工业 4.0 中 ,有 可 能 
在 一 次 性 生产 且 产 量 很 低 (1 批量 ) 的 情况 下 仍 能 获 利 。 

(2) 灵活 性 。 基 于 CPS 的 自 组 织 网 络 可 以 根据 业务 过 程 的 不 同方 面 , 如 质量 .时 间 、 风 
险 、 鲁 棒 性 .价格 和 生态 友好 性 等 ,进行 动态 配置 。 这 有 利于 原料 和 供应 链 的 连续 “微调 ”。 
也 意味 着 工程 流程 可 以 更 加 灵活 ,制造 工艺 可 以 被 改变 ,暂时 短缺 (例如 供应 问题 ) 可 以 得 到 
补偿 ,输出 的 大 量 增加 可 以 在 短 时 间 内 实现 。 

“工业 4.0 为 德国 提供 了 一 个 机 会 ,使 其 进一步 巩固 其 作为 生产 制造 基地 、 生 产 设备 供 
应 商 和 IT 业务 解决 方案 供应 商 的 地 位 。 令 人 鼓舞 的 是 ,我 们 可 以 看 到 德国 的 所 有 利益 
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大 装 桥 ` 才 所 莹 更 语 娄 妖 江 和 
相关 方 在 紧密 合作 ,通过 工业 4. 0 平台 ,一 起 向 前 迈进 ,加 以 实施 .一 一 孔 坦 宁 (Henning 
Kagermann) 

(3) 决策 优化 。 为 了 在 全 球 市 场 上 取得 成 功 , 在 短 时 间 内 能 够 做 出 正确 决定 变 得 越 来 
越 关键 。 工 业 4. 0 提供 了 端 到 端的 实时 透明 ,使 得 工程 领域 的 设计 决策 可 以 进行 早期 验证 ， 
并 且 既 可 以 对 干扰 做 出 更 灵活 的 反应 ,还 可 以 对 生产 领域 中 公司 的 所 有 位 置 进行 全 局 优化 。 

(4) 资源 生产 率 和 利用 效率 。 工 业 制造 过 程 的 总 体 战略 目标 仍然 适用 于 工业 4. 0: 在 
给 定 资源 量 ( 资 源 生 产 率 ) 的 前 提 下 ,得 到 尽 可 能 高 的 产品 输出 ; 使 用 尽 可 能 低 的 资源 量 , 达 
到 指定 的 输出 (资源 利用 效率 ) 。CPS 在 贯穿 整个 价值 网 络 的 各 个 环节 基础 上 ,对 制造 过 程 
进行 优化 。 此 外 ,系统 可 就 生产 过 程 中 的 资源 和 能 源 消耗 或 降低 排放 进行 持续 优化 ,而 不 是 
停止 生产 。 

(5) 通过 新 的 服务 创造 价值 机 会 。 工 业 4. 0 开辟 了 创造 价值 的 新 途径 和 就 业 的 新 形 
式 , 比 如 通过 下 游 服 务 。 智 能 算法 可 用 于 各 种 大 量 数据 (大 数据 ), 这 些 数据 是 为 了 提供 创新 
服务 而 由 智能 设备 所 记录 的 。 尤 其 是 对 于 中 小 企业 和 初创 公司 来 说 ,有 显著 的 机 遇 发 展 
B2B( 企 业 对 企业 ?服务 。 

(6) 应 对 工作 场所 人 口 的 变化 。 通 过 工作 组 织 和 能 力 发 展 计 划 相 结合 ,人 与 技术 系统 
之 间 的 互动 合作 将 为 企业 提供 新 的 机 会 ,将 人 口 变 化 转化 为 自身 的 优势 。 面 对 熟练 劳动 力 
的 短缺 和 日 益 多 样 化 的 劳动 力 (如 年 龄 ,性别 和 文化 背景 ) ,工业 4.0 将 提供 灵活 多 样 的 职业 
路 径 , 让 人 们 的 工作 生涯 更 长 ,并 且 保 持 生产 能 力 。 

(7) 工作 和 生活 的 平衡 。 使 用 CPS 的 公司 更 加 灵活 的 工作 组 织 模式 ,意味 着 它们 可 以 
很 好 地 满足 员工 不 断 增 长 的 需求 ,让 员工 在 工作 与 私人 生活 之 间 , 以 及 个 人 发 展 与 持续 的 职 
业 发 展 之 间 实 现 更 好 的 平衡 。 例 如 ,智能 辅助 系统 将 提供 新 的 组 织 工作 的 机 会 , 即 提供 一 种 
灵活 的 新 标准 以 满足 公司 的 需要 和 员工 个 人 的 需求 。 随 着 劳动 力 规模 的 缩减 ,CPS 公司 在 
招聘 最 优秀 员工 方面 将 具备 明显 优势 。 

(8) 高 工资 仍然 具有 竞争 力 。 工 业 4. 0 的 双重 战略 将 使 得 德国 保持 供应 商 的 领先 地 
位 ,并 且 成 为 工业 4.0 解决 方案 的 主导 市 场 。 

然而 ,工业 4. 0 不 会 对 相关 行业 构成 纯 技术 层面 或 与 信息 技术 相关 的 挑战 。 不 断 变化 
的 技术 也 将 会 对 组 织 方面 带 来 深远 影响 , 它 提 供 了 开展 创新 的 商业 和 企业 模式 、 提 高 员工 参 
与 度 的 机 会 。20 世纪 80 年 代 初 ,通过 将 可 编程 逻辑 控制 器 (PLCs) 应 用 于 制造 技术 ,使 制 
造 自动 化 更 加 灵活 。 与 此 同时 ,通过 采用 一 种 基于 社会 伙伴 关系 的 方法 ,管理 对 劳动 力 的 影 
响 , 德 国 成 功 地 进行 了 第 三 次 工业 革命 。 德 国 强 大 的 工业 基础 成功 的 软件 产业 和 在 语义 技 
术 方 面 的 诀窍 意味 着 德国 可 以 很 好 地 实施 工业 4. 0。 德 国有 可 能 克服 目前 的 障碍 ,如 技术 
楼 受 问题 或 劳动 力 市 场 熟练 工人 数量 有 限 的 问题 。 然 而 ,只 有 所 有 利益 相关 方 共同 努力 , 挖 
掘 物 联网 和 服务 为 制造 业 带 来 的 潜力 . 才 有 可 能 确保 德国 工业 的 未 来 。 自 2006 年 以 来 , 德 
国政 府 已 在 其 高 技术 战略 下 推动 物 联网 和 服务 。 一 些 技 术 项 目 已 经 成 功 启动 。 工 业 科学 研 
究 联盟 正在 利用 工业 4. 0 计划 跨 部 门 推进 这 一 举措 。 在 执行 过 程 中 下 一 步 顺 理 成 章 的 是 建 
立 第 四 次 工业 革命 平台 ,由 德国 信息 技术 、 通 信 、 新 媒体 协会 (BITKOM) ,德国 机 械 设备 制 
造 业 联合 会 (VDMA) 以 及 德国 电气 和 电子 工业 联合 会 (ZVED 三 个 专业 协会 共同 建立 秘书 
处 。 下 一 步 的 任务 就 是 为 关键 的 优先 主题 制定 研发 路 线 图 。 确 保 德 国 制 造 业 的 未 来 一 一 这 
是 工业 4.0 平台 的 合作 伙伴 确立 的 目标 。 该 平台 邀请 所 有 相关 的 利益 方 继续 探索 工业 4.0 
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带 来 的 机 遇 , 只 有 这 样 , 才 可 以 帮助 确保 成 功 实施 工业 4. 0 的 革命 前 景 。 
12.1.4 我 国 工 业 信息 化 发 展 历程 和 现状 


三 十 多 年 来 ,我 国 基 本 形成 了 一 条 符合 国情 的 工业 信息 化 道路 。 与 国外 水 平 相 比 ,在 应 
用 方面 ,特别 是 高 端 应 用 方面 差距 不 大 ,但 是 应 用 面 还 比较 窜 ; 支撑 工业 应 用 的 信息 化 产品 
尚 处 于 初级 发 展 阶段 ,差距 较 大 ,有 的 甚至 非常 大 。 

我 国 工 业 信 息 化 发 展 历程 大 致 可 以 归结 为 以 下 6 个 方面 。 

1. 国家 863 计划 CIMS 主题 

1986 年 国家 863 计划 (高 技术 研究 发 展 计 划 ) 开 始 论证 和 实施 ,首先 启动 对 我 国 经 济 发 
展 有 重大 影响 的 7 个 高 技术 领域 公关 。 其 中 的 自动 化 技术 领域 包括 计算 机 集成 制造 系统 
(CIMS) 主题 和 智能 机 器 人 主题 。 

1994 年 和 1999 年 ,国家 CMIS 工程 中 心 和 华中 理工 大 学 分 别 荣获 美国 制造 工程 师 学 
会 的 “大 学 领先 奖 ”; 1995 年 ,北京 第 一 机 床 厂 的 CMIS 工程 又 获 美国 制造 工程 师 学 会 的 “ 工 
业 领 先 奖 ”。 

2.“ 九 五 “ 甩 图 板 ” 工 程 

“ 九 五 ”初期 ,当时 的 国家 科 委 (中 华人 民 共 和 国 科学 技术 委员 会 ) 主 任 宋 健 同志 提出 “ 甩 
图 板 ” 的 口号 。 虽 然 “ 甩 图 板 ” 只 是 一 个 历史 意义 的 突破 口 , 远 不 是 制造 业 信 息 化 的 最 终 目标 
和 最 高 境界 ,但 却 形象 地 描述 了 “ 九 五 "CAD 推广 应 用 工程 的 阶段 性 愿景 在 全 国产 生 巨大 的 
号 召 力 。20 世纪 90 年 代 的 “有 忆 图 版 “ 扔 算盘 ”工程 ,推动 了 企业 信息 化 普及 高 潮 : 在 六 百 多 
家 企业 进行 了 CAD 技术 示范 应 用 ,三 千 多 家 企业 进行 了 重点 应 用 ,并 带动 了 万 家 企业 开发 
CAD 应 用 。 

3.“ 十 五 ”国家 制造 业 信息 化 工程 

图 12-2 为 “十 五 "期间 制造 业 信息 化 工程 建设 任务 体系 结构 。 其 特点 是 形成 完善 的 工 
程 体系 ,省 市 协同 推进 。 国 家 还 成 立 了 制造 业 信息 化 工程 协调 领导 小 组 。 
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图 12-2 “十 五 "期间 制 造 业 信息 化 工程 


名 大 并 极 : 载 据 巷 更 点 才 掺 式 和 LE 

“十 五 ?期 间 培育 了 一 批 制 造 业 信息 化 专业 服务 机 构 ,在 27 个 省 .49 个 重点 城市 的 六 千 
多 家 企业 推广 了 制造 业 信 息 化 工程 。 

4.“ 十 一 五 "国家 * 甩 图 纸 "“ 甩 账 表 "工程 

“十 一 五 期间 ,科技 部 提出 组 织 制造 业 企业 实施 设计 制造 一 体 化 的 “ 甩 图 纸 示 范 推广 
工程 和 经 营 管理 信息 化 的 “ 甩 账 表 ” 示 范 推广 工程 ,简称 “两 甩 ” 工 程 ,这 成 为 “十 一 五 ”制造 业 
信息 化 科技 示范 工程 预期 实施 效果 的 阶段 性 愿景 。 

“十 一 五 期间 ,以 集团 企业 .骨干 企业 .中 小 企业 为 对 象 ,以 集成 与 协同 为 重点 ,向 纵深 
方向 推进 制造 业 信息 化 发 展 ,全 面 提 升 了 制造 企业 核心 竞争 力 。 

5.“ 十 二 五 ”国家 制造 业 信息 化 工程 

“十 二 五 ”期间 国 家 科技 部 门将 以 服务 为 手段 ,以 增 效 为 目标 ,以 升级 转型 为 标志 ,继续 
大 力 推动 我 国 制造 业 信息 化 工程 。 

6.“ 十 三 五 ”国家 制造 业 信 息 化 工程 

“十 三 五 ”期 间 , 提 出 (中 国 制造 2025》, 主 要 内 容 包 括 : 坚持 “创新 驱动 .质量 为 先 、 绿 色 
发 展 、 结 构 优化 ,人 才 为 本 ”的 基本 方针 ,坚持 “市 场 主导 、 政 府 引 导 , 立 足 当 前 、 着 眼 长 远 , 整 
体 推 进 、 重 点 突破 ,自主 发 展开 放 合 作 ” 的 基本 原则 ,通过 “三 步 走 ”实现 制造 强国 的 战略 目 
标 : 第 一 步 , 到 2025 年 迈 入 制造 强国 行列 ; 第 二 步 ,到 2035 年 我 国 制造 业 整体 达到 世界 制 
造 强国 阵营 中 等 水 平 ; 第 三 步 ,到 新 中 国 成 立 一 百年 时 ,我 国 制造 业 大 国 地 位 更 加 巩固 , 综 
合 实力 进入 世界 制造 强国 前 列 。 


12.1.5 我 国 ( 中 国 制 造 2025) 的 发 展 战略 


制造 业 是 国民 经 济 的 主体 ,是 科技 创新 的 主 战场 ,是 立国 之 本 、 兴 国之 器 、 强 国之 基 。 当 
前 ,全 球 制造 业 发 展 格局 和 我 国 经 济 发 展 环境 发 生 重大 变化 ,必须 紧 紧 抓 住 当前 难得 的 战略 
机 遇 , 突 出 创新 驱动 ,优化 政策 环境 ,发 挥 制度 优势 ,实现 中 国 制造 向 中 国 创造 转变 ,中 国 速 
度 向 中 国 质 量 转 变 , 中 国产 品 向 中 国 品 牌 转变 。 

深入 实施 (中 国 制造 2025》, 通 过 政府 引导 、 整 合资 源 ,实施 国家 制造 业 创新 中 心 建设 、 
智能 制造 .工业 强 基 、 绿 色 制造 、 高 端 装备 创新 等 5 项 重大 工程 ,实现 长 期 制约 制造 业 发 展 的 
关键 共性 技术 突破 ,提升 我 国 制造 业 的 整体 竞争 力 。 

围绕 实现 制造 强国 的 战略 目标 ,《 中 国 制 造 2025》 明 确 了 9 项 战略 任务 和 重点 : 一 是 提 
高 国家 制造 业 创 新 能 力 ; 二 是 推进 信息 化 与 工业 化 深度 融合 ; 三 是 强化 工业 基础 能 力 ; 四 
是 加 强 质 量 品 牌 建设 ; 五 是 全 面 推行 绿色 制造 ; 六 是 大 力 推动 重点 领域 突破 发 展 ,聚焦 新 
一 代 信息 技术 产业 ,高 档 数控 机 床 和 机 器 人 、 航 空 航天 装备 ,海洋 工程 装备 及 高 技术 船舶 、 先 
进 轨道 交通 装备 .节能 与 新 能 源 汽车 .电力 装备 ` 农 机 装备 、 新 材料 .生物 医药 及 高 性 能 医疗 
器 械 等 十 大 重点 领域 ; 七 是 深入 推进 制造 业 结构 调整 ; 八 是 积极 发 展 服务 型 制造 和 生产 性 
服务 业 ; 九 是 提高 制造 业 国际 化 发 展 水 平 。 

1. 全 面 提升 工业 基础 能 力 

实施 工业 强 基 工程 ,重点 突破 关键 基础 材料 .核心 基础 零 部 件 (元 器 件 )` 先 进 基础 工艺 、 
产业 技术 基础 等 “四 基 ? 瓶 颈 。 引 导 整 机 企业 与 “四 基 " 企 业 ,高 校 . 科 研 院 所 产 需 对 接 。 支 持 
全 产业 链 协同 创新 和 联合 攻关 ,系统 解决 “四 基 ? 工 程 化 和 产业 化 关键 问题 。 强 化 基础 领域 
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标准 ` 计 量 ` 认 证 认可 、 检 验 检测 体系 建设 。 实 施 制造 业 创新 中 心 建设 工程 ,支持 工业 设计 中 
心 建设 。 设 立国 家 工业 设计 研究 院 。 

2. 加 快 发 展 新 型 制造 业 

实施 高 端 装备 创新 发 展 工程 ,明显 提升 自主 设计 水 平和 系统 集成 能 力 。 实 施 智 能 制造 
工程 ,加 快 发 展 智能 制造 关键 技术 装备 ,强化 智能 制造 标准 .工业 电子 设备 、 核 心 支撑 软件 等 
基础 。 加 强 工业 互联 网 设施 建设 .技术 验证 和 示范 推广 ,推动 “中 国 制造 十 互联 网 ”取得 实质 
性 突破 。 培 育 推广 新 型 智能 制造 模式 ,推动 生产 方式 向 和 柔性、 智能 .精细 化 转变 。 鼓 励 建 立 
智能 制造 产业 联盟 。 实 施 绿色 制造 工程 ,推进 产品 全 生命 周期 绿色 管理 ,构建 绿色 制造 体 
系 。 推 动 制造 业 由 生产 型 向 生产 服务 型 转变 ,引导 制造 企业 延伸 服务 链条 、 促 进 服 务 增值 。 
推进 制造 业 集聚 区 改造 提升 ,建设 一 批 新 型 工业 化 产业 示范 基地 ,培育 若干 先进 制造 业 
中 心 。 

3. 推动 传统 产业 改造 升级 

实施 制造 业 重 大 技术 改造 升级 工程 ,完善 政策 体系 ,支持 企业 瞄准 国际 同行 业 标杆 全 面 
提高 产品 技术 ,工艺 装备 ,能效 环保 等 水 平 ,实现 重点 领域 向 中 高 端的 群体 性 突破 。 开 展 改 
善 消费 品 供给 专项 行动 。 鼓 励 企业 并 购 , 形 成 以 大 企业 集团 为 核心 ,集中 度 高 分 工 细 化 、 协 
作 高 效 的 产业 组 织 形态 。 支 持 专业 化 中 小 企业 发 展 。 

4. 加强 质量 品牌 建设 

实施 质量 强国 战略 ,全 面 强化 企业 质量 管理 ,开展 质量 品牌 提升 行动 ,解决 一 批 影响 产 
品质 量 提升 的 关键 共性 技术 问题 ,加 强 商 标 品 牌 法 律 保护 ,打造 一 批 有 竞争 力 的 知名 品牌 。 
建立 企业 产品 和 服务 标准 自我 声明 公开 和 监督 制度 ,支持 企业 提高 质量 在 线 检测 控制 和 产 
品 全 生命 周期 质量 追溯 能 力 。 完 善 质 量 监管 体系 ,加 强国 家 级 检测 与 评定 中 心 、 检 验 检测 认 
证 公共 服务 平台 建设 。 建 立 商 品质 量 惩罚 性 赔偿 制度 。 

5. 积极 稳妥 化 解 产 能 过 剩 

综合 运用 市 场 机 制 、 经 济 手段 ,法治 办 法 和 必要 的 行政 手段 ,加 大 政策 引导 力度 ,实现 市 
场 出 清 。 建 立 以 工艺 技术、 能 耗 、 环 保 \ 质 量 、 安 全 等 为 约束 条 件 的 推进 机 制 , 强 化 行业 规范 
和 准 和 管理 ,坚决 淘汰 落后 产能 。 设 立 工 业 企 业 结构 调整 专项 奖 补 资金 ,通过 兼并 重组 、 债 
务 重组 、 破 产 清算 、 盘 活 资产 ,加 快 钢铁 .煤炭 等 行业 过 剩 产能 退出 ,分 类 有 序 、 积 极 稳妥 处 置 
退出 企业 ,妥善 做 好 人 员 安 置 等 工作 。 

6. 降低 实体 经 济 企业 成 本 

开展 降低 实体 经 济 企 业 成 本 行动 。 进 一 步 简 政 放 权 , 精 简 规 范 行政 审批 前 置 中 介 服务 ， 
清理 规范 中 介 服 务 收费 ,降低 制度 性 交易 成 本 。 合 理 确 定 最 低 工资 标准 ,精简 归并 “五 险 一 
金 ”, 适 当 降 低 缴 费 比 例 , 降 低 企 业 人 工 成 本 。 降 低 增值 税 税 负 和 流转 税 比重 ,清理 规范 涉 企 
基金 ,清理 不 合理 涉 企 收 费 ,降低 企业 税 费 负 担 。 保 持 合理 流动 性 和 利率 水 平 ,创新 符合 企 
业 需 要 的 直接 融资 产品 ,设立 国家 融资 担保 基金 ,降低 企业 财务 成 本 。 完 善 国际 国内 能 源 价 
格 联动 和 煤 电价 格 联动 机 制 , 降 低 企业 能 源 成 本 。 提 高 物流 组 织 管理 水 平 , 规 范 公路 收费 行 
为 ,降低 企业 物流 成 本 。 鼓 励 和 引导 企业 创新 管理 、 改 进 工艺 、 节 能 节 材 。 
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12.2 工业 信息 化 技术 集成 和 协同 发 展 方向 


集成 和 协同 构成 了 工业 信息 化 技术 发 展 主旋律 , 它 既 是 实现 各 种 工程 系统 必 不 可 少 的 
技术 ,也 是 带动 各 种 单元 技术 发 展 的 动力 。 集 成 和 协同 不 是 简单 地 将 两 个 或 多 个 单元 联系 
在 一 起 ,而 是 将 原来 没有 联系 或 者 联系 不 紧密 的 单元 有 机 地 组 成 为 有 一 定 功能 的 .相互 间 紧 
密 联系 的 新 系统 ,从 而 产生 更 大 的 效益 。 

在 工业 信息 化 技术 发 展 不 同 阶段 ,集成 和 协同 有 不 同 的 内 涵 和 外 延 ,图 12-3 分 别 从 集 
成 和 协同 的 空间 跨度 、 集 成 和 协同 的 时 间 跨 度 、 集 成 和 协同 的 重点 、 集 成 和 协同 的 对 象 以 及 
主要 集成 和 协同 技术 等 方面 表示 了 集成 和 协同 技术 的 发 展 过 程 。 














集成 和 协同 部 门 内 企业 内 
的 空间 跨度 二 流程 ] 
集成 和 协同 产品 制造 过 程 产品 全 生命 周期 管理 
的 时 间 跨度 “| 。 中 不 同 阶段 广 品 制造 过 程 PLM， 制 造 服务 等 
知识 
集成 和 协同 祝 息 过 程 知识 管理 
的 重点 0 智能 制造 
集成 和 协同 席 划 多 学 科 模型 
几何 模型 几何 模型 + 学 科 设 计 优 
的 对 旬 Se 部 分 性 能 模型 i 
主要 集成 和 LAN Internet/Intrannet 企业 集成 
内 同 技 3 ERP/PDM 物 联 网 
协同 技术 su Led 
CADICAM/CAPP | ”数据 座 ，DCS 云 计算 等 

















图 12-3 工业 信息 化 集成 和 协同 发 展 过 程 


12.2.1 集成 和 协同 的 空间 跨度 


从 集成 和 协同 的 空间 跨度 来 看 ,已 经 从 原先 的 部 门 内 、 企 业内 各 部 门 间 , 发 展 到 追求 整 
个 增值 链 效益 最 大 化 的 企业 间 集 成 和 协同 ,目前 的 代表 技术 有 供应 链 管理 流程 工业 综合 自 
动 化 和 网 络 化 制造 等 。 

供应 链 管理 (Supply Chain) 是 现代 物流 中 供应 、 分 配 和 销售 渠道 及 过 程 一 体 化 管理 的 
结果 ,涵盖 所 有 参加 供应 、 生 产 、 分 配 和 销售 过 程 的 企业 ,是 现代 物流 活动 中 的 核心 过 程 和 
主线 。 以 跨 组 织 、 连 续 性 等 为 特征 的 供应 链 集 成 是 现代 物流 管理 的 核心 理念 ,是 系统 化 
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和 系统 整体 性 的 体现 以 及 现代 社会 发 展 的 客观 要 求 。 集 成 供应 链 管 理 技术 遵循 融合 
(Syncretism) ,共生 (Symbiosis) 和 协同 (Synergy) 的 “3S? 原 则 ,保持 供应 链 系统 的 高 效 性 和 
灵活 性 ,从 而 保证 整个 供应 链 的 成 长 性 和 持续 发 展 。 正 在 兴起 的 敏捷 供应 链 (Agile Supply 
Chain) 充 分 体现 了 这 种 集成 化 的 思想 ,代表 了 工业 企业 物流 系统 管理 的 最 新 发 展 方向 之 一 。 

流程 工业 综合 自动 化 是 将 先进 的 工艺 技术 、 现 代 管理 技术 和 以 先进 控制 及 优化 技术 为 
代表 的 信息 技术 相 结 合 ,将 流程 工业 企业 的 经 营 管理 ,生产 过 程控 制 、 运 行 作为 一 个 整体 来 
进行 综合 的 管理 ,将 ERP (Enterprise Resource Planning)/MES(Manufacturing Execution 
System)/PCS(Process Control System) 三 级 结构 应 用 于 流程 工业 企业 。 其 中 ,PCS 是 信息 
处 理 和 控制 的 基础 ; MES 以 生产 调度 为 核心 ,起 着 承上启下 的 关键 作用 ; ERP 则 是 以 资源 
的 优化 配置 .调度 和 经 营 决 策 为 目标 的 管理 层 。 应 用 多 智能 体 等 信息 技术 ,从 生产 过 程 的 全 
局 出 发 ,将 生产 加 工 技 术 与 现代 管理 技术 有 机 集成 ,形成 一 个 集 控制 .监测 、 优 化、 调度 、 管 
理 、 经 营 和 决策 等 功能 于 一 体 的 协同 递 阶 控制 系统 ,实现 企业 /企业 间 的 优化 运行 .优化 控制 
和 优化 管理 ,从 而 形成 适应 各 种 生产 环境 和 市 场 需求 .总 体 最 优 、 高 质量 、 高 效益 、 高 柔性 的 
现代 化 企业 综合 自动 化 系统 。 


12.2.2 集成 和 协同 的 时 间 跨 度 


从 集成 和 协同 的 时 间 跨 度 来 看 ,已 经 从 原先 仅 考虑 产品 生命 周期 的 某 一 阶段 ,发 展 为 产 
品 全 生命 周期 管理 .目前 的 代表 技术 是 产品 生命 周期 管理 和 制造 服务 技术 。 

经 济 全 球 化 和 信息 技术 的 快速 发 展 ,使 工业 企业 的 竞争 环境 发 展 模式 及 活动 范围 等 发 
生 了 深刻 的 变化 。 在 这 种 背景 下 ,产品 生命 周期 管理 (Product Lifecycle Management， 
PLM) 应 运 而 生 。 从 发 展 的 趋势 来 看 ,PLM 正在 迅速 地 从 一 种 竞争 优势 转变 为 参与 竞争 所 
必须 具备 的 技术 。 产 品 生命 周期 管理 是 一 种 在 系统 思想 指导 下 ,利用 计算 机 技术 、 管 理 技 
术 、 自 动 化 技术 和 现代 制造 技术 等 对 产品 全 生命 周期 管理 内 与 产品 相关 的 数据 过程、 资源 
和 环境 等 进行 管理 。 通 过 实施 PLM .企业 各 部 门 的 员工 、 最 终 用 户 和 合作 伙伴 等 可 以 高 效 
地 协同 工作 ,最 终 产品 能 达到 综合 最 优 。 产 品 生命 周期 管理 系统 是 一 种 面向 数据 、 资 源 和 过 
程 的 产品 技术 信息 化 集成 系统 。PLM 解决 方案 涵盖 了 从 市 场 需求 分 析 、 开 发 设计 、 测 试验 
收 . 生 产 制造 .安装 .运行 .维护 .服务 以 及 报废 回收 等 产品 的 整个 生命 周期 (图 12-4)。 从 技 
术 角 度 来 看 ,PLM 的 逐渐 广泛 应 用 与 PDM 技术 的 成 熟 和 深化 具有 十 分 密切 的 联系 , 目前 
这 两 种 技术 还 在 不 断 发 展 之 中 ,并 将 得 到 越 来 越 广泛 的 应 用 。 

经 济 全 球 化 、 信 息 技术 的 革命 和 现代 管理 思想 的 发 展 ,使 得 全 球 制造 业 发 生 了 重大 
变化 。 

同 质 化 的 竞争 和 供 大 于 求 的 市 场 .使 企业 原 有 的 生产 、 技 术 和 资金 等 优势 越 来 越 不 明 
显 , 产 品 利润 率 日 益 降低 。 发 达 国 家 跨国 制造 企业 纷纷 实施 归 核 化 战略 和 差异 化 战略 ,进行 
产品 创新 和 服务 创新 ,将 经 营 重点 放 到 核心 业务 价值 链 中 本 身 优势 最 大 的 环节 上 ,通过 实施 
战略 性 外 包 增强 差异 性 竞争 优势 。 这 就 使 原本 完整 连续 的 制造 业 产业 价值 链 断 裂 分 解 , 与 
渗透 进来 的 服务 业 价值 链 混合 ,实现 了 制造 业 与 现代 服务 业 的 产业 融合 ,产生 了 全 新 的 现代 
制造 服务 业 价值 链 。 因 此 ,制造 业已 不 仅仅 提供 产品 ,而 是 提供 产品 服务 .支持 .自我 服务 
和 知识 的 “集合 体 ”. 制 造 业 企业 正在 转变 为 某 种 意义 上 的 服务 企业 。 制 造 服务 是 向 产品 
产 过 程 和 产品 使 用 过 程 所 提供 的 各 种 形式 服务 的 总 称 。 前 者 为 面向 产品 生产 企业 提供 的 各 
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种 形式 服务 ,如 市 场 分 析 \ 产 品 研发 .IT 服务、 新 工艺 开发 .制造 资源 维护 、 财 务 服 务 、 人 力 资 
源 开发 等 ; 后 者 为 面向 最 终 用 户 提供 的 各 种 形式 服务 ,如 产品 运行 服务 `MRO IT 服务 、 财 
务 服务 .技术 培训 、 报 废 回收 等 。 


| 市 场 研发 》 产品 规划 仿 产品 设计 人 工艺 过 程 规划 作 生产 计划 个 生产 、》 销售 、》 服务 
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图 12-4 产品 生命 周期 管理 系统 


12.2.3 集成 和 协同 的 重点 和 对 和 象 


从 集成 和 协同 的 重点 来 看 ,已 经 从 原先 的 信息 集成 .过 程 集成 ,发 展 到 知识 集成 。 目 前 
的 代表 技术 是 知识 管理 和 智能 制造 技术 。 

知识 管理 是 指 为 提高 企业 竞争 力 而 对 企业 知识 的 识别 ,收集 、 获 取 并 充分 发 挥 其 作用 的 
过 程 , 其 目标 是 使 企业 实现 显 性 知识 和 隐 性 知识 的 共享 ,促进 知识 创新 并 最 大 限度 地 激发 企 
业 产 品 创新 的 核心 要 素 , 工 业 企业 的 发 展 逐 渐 从 依靠 资本 积累 转向 依赖 于 知识 积累 与 更 新 。 
各 种 显 性 知识 和 隐 性 知识 将 融入 企业 的 产品 .服务 和 生产 过 程 ,并 作为 产品 进行 生产 ,驱动 
以 创新 为 目的 的 知识 生产 。 而 建立 和 挖掘 客户 的 知识 库 和 利用 知识 资源 数据 等 作为 最 重要 
的 知识 管理 系统 的 支撑 技术 将 得 到 飞速 发 展 。 

从 集成 协同 的 对 象 来 看 ,由 于 现代 工程 系统 的 复杂 化 趋势 ,包括 工程 系统 的 大 型 化 、 功 
能 和 结构 的 复杂 化 、 追 求 目标 的 多 元 化 等 ,以 及 多 学 科 并 行 涉 及 的 迫切 需求 , 光 、 机 、 电 、 磁 、 
液 ,信息 等 技术 一 体 化 趋势 ,使 得 现代 工程 系统 的 设计 必须 同时 涉及 众多 不 同学 科 或 专业 领 
域 。 在 这 种 情况 下 ,工程 系统 设计 已 经 从 单纯 的 几何 模型 、 几 何 模 型 加 部 分 性 能 模型 发 展 到 
多 学 科 模 型 ,多 学 科 设 计 优化 方法 应 运 而 生 。 

多 学 科 设 计 优 化 (Multidisciplinary Design Optimization, MDO) 是 一 种 用 全 局 的 观点 ， 
通过 研究 复杂 工程 系统 与 子 系统 之 间 的 交互 影响 和 协同 作用 ,对 复杂 工程 系统 进行 分 析 和 
优化 设计 的 方法 。 实 现 多 学 科 设计 优化 的 技术 和 系统 分 别称 为 多 学 科 设 计 优 化 技术 和 多 学 
科 设 计 优化 系统 。 

MDO 的 基本 思想 是 : 在 复杂 工程 系统 的 设计 过 程 中 集成 各 个 学 科 ( 或 领域 的 知识 ) ,应 
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用 有 效 的 设计 /优化 策略 以 及 分 布 式 计 算 机 网 络 系统 ,组 织 和 管理 整个 系统 的 设计 过 程 , 通 
过 充分 利用 各 个 学 科 之 间 的 相互 作用 所 产生 的 协同 效应 ,协调 不 同学 科 设 计 之 间 的 夸 合 和 
可 能 出 现 的 冲突 ,使 复杂 工程 系统 的 设计 从 孤立 的 、 串 行 的 过 程 成 为 并 行 的 ,协同 的 过 程 ,将 
设计 的 重点 从 单独 的 部 件 级 转移 到 系统 级 整体 性 能 优化 。 
多 学 科 设 计 优 化 方法 在 复杂 工程 系统 设计 中 的 成 功 应 用 ,使 得 设计 人 员 能 够 在 数值 计 
算 和 仿真 分 析 的 基础 上 进行 高 水 平 的 设计 决策 ,大 大 提供 了 复杂 工程 系统 的 设计 质量 和 设 
计 效 率 , 降 低 了 开发 成 本 。 


12.2.4 主要 的 集成 和 协同 技术 


从 主要 的 集成 和 协同 技术 来 看 ,计算 机 技术 和 网 络 技术 的 发 展 ,为 制造 系统 的 集成 提供 
了 很 多 有 效 的 工具 ,使 得 原先 十 分 复杂 的 集成 工作 变 得 非常 简单 。 目 前 代表 的 技术 如 企业 
集成 技术 、 物 联网 和 云 计 算 / 云 制造 等 。 

企业 集成 从 20 世纪 80 年 代 到 现在 已 经 发 展 了 将 近 三 十 年 ,从 开始 的 点 对 点 集成 ,企业 
应 用 集成 ,企业 间 集 成 ,发 展 到 了 现在 的 面向 服务 的 集成 。 随 着 信息 技术 的 不 断 发 展 ,集成 
的 内 涵 不 断 发 展 , 同 时 也 促进 了 企业 经 营 模式 的 变革 。 

物 联网 是 通过 射频 识别 .传感器 网 络 .全 球 定位 系统 等 信息 传 感 设备 , 按 约定 的 协议 把 
任何 物品 与 互联 网 连接 起 来 ,进行 信息 交换 和 通信 ,以 实现 智能 化 感知 ,监控 和 管理 的 一 种 
网 络 。 物 联网 是 在 互联 网 基础 上 延伸 和 扩展 ,其 用 户 端 延伸 和 扩展 到 了 任何 物品 与 物品 之 
间 进 行 信息 交换 和 通信 。 物 联网 的 特征 有 三 点 : 接 入 对 象 更 为 广泛 ,获取 信息 更 加 丰富 ; 
网 络 可 获得 性 更 高 ,互联 互通 更 为 广泛 ; 信息 处 理 能 力 更 强大 ,人 类 与 周围 世界 的 相处 更 为 
智慧 。 物 联网 的 应 用 ,将 对 工业 信息 化 的 发 展 产生 巨大 的 影响 。 

随 着 网 络 基 础 设施 的 逐步 完善 ,互联 网 .3G/4GV5G 无 线 宽带 网 络 .无 线 传 感 等 多 种 网 
络 正 在 融合 为 泛 在 信息 网 络 ,“ 无 时 无 刻 不 网 络 ” 的 时 代 已 经 到 来 。 在 这 种 情况 下 ,一 种 新 的 
服务 化 计算 模式 一 一 云 计 算 (Cloud Computing) 正 在 走向 成 熟 。 作 为 一 种 新 的 计算 架构 , 云 
计算 不 仅 对 信息 领域 产生 了 重大 影响 ,也 对 工业 信息 化 的 发 展 产 生 了 重要 的 影响 。 云 制造 
是 借鉴 云 计算 思想 发 展 起 来 的 一 个 新 概念 ,是 先进 的 信息 技术 、 制 造 技 术 以 及 新 兴 物 联网 技 
术 等 交叉 融合 的 产品 ,是 “制造 及 服务 ”理念 的 体现 。 云 制造 需要 采取 包括 云 计算 在 内 的 当 
代 信 息 技 术 前 沿 理念 ,建立 共享 制造 资源 的 公共 服务 平台 ,将 巨大 的 社会 制造 资源 池 连 接 在 
一 起 ,提供 各 种 制造 服务 ,实现 制造 资源 与 服务 的 开发 协作 、 社 会 资源 高 度 共享 。 


12.3 ”中国 制造 信息 化 应 用 系统 


工业 制造 主要 应 用 的 信息 化 系统 可 以 分 为 工程 设计 自动 化 系统 、 制 造 控制 自动 化 系统 、 
柔性 制造 系统 、 制 造 执行 信息 系统 ` 企 业 资 源 管理 信息 系统 、 信 息 物 理 系统 等 。 本 节 将 简要 
介绍 这 些 系统 功能 。 


12.3.1 工业 设计 自动 化 系统 


工业 设计 自动 化 是 指 利用 计算 机 软 硬 件 及 网 络 环境 来 辅助 进行 产品 设计 和 分 析 的 一 种 
技术 。 即 在 网 络 和 计算 机 辅助 下 ,基于 产品 数据 模型 ,对 产品 的 设计 、 制 造 、 装 配 、 分 析 等 过 
程 提 供 计算 机 支持 工具 和 手段 。 工 程 设计 自动 化 不 仅 贯 穿 产 品 设计 制造 的 全 过 程 ,而 且 涉 





FeO 
及 企业 的 设备 安装 物流 配送 .生产 计划 、 成 本 控制 等 方面 ,其 应 用 实施 可 以 起 到 缩短 产品 研 
制 周 期 、 降 低产 品 开发 成 本 、 实 现 产品 优化 设计 的 目的 。 工 业 设计 自动 化 系统 一 般 包括 计算 
机 辅助 设计 (CAD) .计算 机 辅助 设计 工程 (CAE) .计算 机 辅助 工艺 设计 (CAPP) .计算 机 辅 
助 设 计 (CAE) ,产品 数据 管理 PDM) 等 。 

1. 计算 机 辅助 设计 系统 

计算 机 辅助 设计 (Computer Aided Design,CAD) 是 指 利用 计算 机 系统 辅助 完成 工程 设 
计 的 产生 ,修改 ,分析 ,优化 和 检验 的 过 程 。CAD 技术 从 产生 到 现在 ,经 历 了 形成 .发 展 、 提 
高 和 集成 等 阶段 。 在 CAD 技术 发 展 的 初期 ,CAD 仅 限 于 二 维 计算 辅助 绘图 , 随 着 计算 机 软 
硬件 技术 的 快速 发 展 ,CAD 技术 从 二 维 平面 绘图 发 展 到 三 维 产 品 建 模 ,之 后 产生 了 三 维 线 
框 造型 .曲面 造型 以 及 实体 造型 技术 。 现 已 向 参数 化 及 变量 化 设计 思想 和 特征 造型 方向 
转变 。 

二 维 CAD 系统 将 工程 设计 图 纸 看 成 是 “点 、 线 \、 圆 , 弧 、 文 本 ”等 几何 元 素 的 集合 ,所 依 
赖 的 数据 模型 是 纯 几何 模型 ,系统 记录 了 这 些 图 素 的 几何 特征 。 二 维 CAD 系统 具有 很 强 
的 交互 式 图 形 编辑 功能 ,可 以 方便 地 对 图 形 进行 复制 .删除 和 移动 等 操作 ,也 包含 尺寸 标注 、 
注解 , 形 位 公差 标注 、 图 形 存 储 和 管理 等 功能 。 三 维 实体 模型 具有 二 维 绘图 无 法 比拟 的 优 
点 ,例如 ,可 以 对 重要 零 部 件 进行 有 限 元 分 析 与 优化 设计 (CAE), 可 以 支持 工艺 规程 
(CAPP) 生 成 和 数控 加 工程 序 (CAM) ,可 以 在 模具 制造 之 前 利用 快速 成 型 的 方法 制造 出 装 
配 检 查 及 测试 用 的 实物 零件 ,也 可 以 启动 三 维 模型 与 二 维 图 形 的 关联 功能 ,自动 生产 二 维 工 
程 图 纸 。 

2. 计算 机 辅助 工艺 设计 系统 

工艺 设计 师 产 品 制造 过 程 中 技术 准备 工作 的 一 项 重要 内 容 , 是 产品 设计 与 实际 生产 的 

纽带 ,是 一 个 经 验 性 很 强 而 且 随 制造 环境 变化 而 多 变 的 决策 过 程 。 工 艺 设计 的 任务 在 于 : 

规定 产品 工艺 过 程 、 工 艺 操 作 内 容 \、 工 艺 装备 (设备 、 工 夹 量 辅 具 ) 和 工艺 参数 等 。 常 见 的 产 

品 加 工 工艺 包括 : 零件 的 机 械 加 工 工艺 、 饭 金 件 的 冲压 工艺 .零件 的 铸造 工艺 .锻造 工艺 、 热 

处 理工 艺 ,以 及 装备 工艺 等 。 
计算 机 辅助 工艺 过 程 设计 (Computer Aided Process Planning,CAPP) 就 是 借助 于 计算 

机 来 制定 产品 的 工艺 规程 .计算 工艺 参数 .生成 工序 图 .最终 得 到 一 份 完整 的 加 工 工艺 卡 ,并 

以 此 为 依据 进行 产品 的 生产 加 工 。CAPP 系统 根据 产品 设计 信息 ,首先 完成 零件 信息 描述 ; 

然后 根据 现 有 工艺 人 员 的 经 验 、 标 准 工艺 规范 及 工艺 知识 库 中 的 信息 ,初步 完成 零件 的 工艺 

过 程 设 计 ; 再 根据 工厂 装备 、 加 工 规则 知识 ,设备 的 性 能 及 加 工 精度 ,完成 各 工序 、 工 步 的 设 

计 ; 最 后 输出 所 要 的 工艺 路 线 、 工 艺 规程 .材料 定额 .工时 定额 .工装 明细 表 以 及 数控 程序 

(NCP) 等 。 

3. 计算 机 辅助 制造 系统 
计算 机 辅助 制造 (Computer Aided Manufacturing,.CAM) 是 指 计算 机 产品 制造 方面 有 

关 应 用 的 总 和 。 广 义 上 讲 ,CAM 是 指 利用 计算 机 辅助 产品 制造 过 程 中 的 直接 和 间接 活动 ， 

包括 CAPP、NC 编程 .工时 定额 的 计算 ` 生 产 计 划 的 制订 资源 需求 计划 制订 等 。 狭 义 

CAM 是 指 与 数控 编程 有 关 的 内 容 ,包括 刀具 轨迹 规划 、 刀 具 文 件 生成 .刀具 轨迹 仿真 以 及 

NC 代码 生成 等 。 由 于 CAPP、MRP、ERP 系统 的 发 展 ,目前 所 提 到 的 CAM 大 多 是 指 狭义 
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CAM, 即 利用 计算 机 辅助 编制 数控 加 工 指令 。 它 向 上 与 CAD、CAPP 实现 无 缝 集成 ,向 下 
方便 快捷、 智能 .高 效 地 为 数控 生产 服务 。CAD 中 设计 的 结果 (零件 模型 ) ,经 过 CAPP 工 
艺 编 排 产 生 工 艺 流 程 图 后 ,最 终 在 CAM 中 进行 加 工 轨 迹 生 成 与 仿真 ,产生 数控 加 工 代码 ， 
从 而 控制 数控 机 床 进行 加 工 。 

4. 计算 机 辅助 工程 

计算 机 辅助 工程 (Computer Aided Engineering,CAE) 是 用 计算 机 辅助 求解 复杂 工程 和 
产品 结构 强度 、 刚 度 、 届 曲 稳 定性 ,动力 响应 、 热 传导 三维 多 体 接触 、 弹 塑性 等 力学 性 能 的 分 
析 计 算 以 及 结构 性 能 的 优化 设计 等 问题 的 一 种 近似 数值 分 析 方 法 。CAE 从 20 世纪 60 年 
代 初 在 工程 上 开始 应 用 到 今天 ,已 经 历 了 五 十 多 年 的 发 展 历史 ,其 理论 和 算法 都 经 历 了 从 花 
勃发 展 到 日 趋 成 熟 的 过 程 , 现 已 成 为 工程 和 产品 结构 分 析 中 (如 航空 航天 、 机 械 、 土 木 结构 
等 领域 ) 必 不 可 少 的 数值 计算 工具 ,同时 也 是 分 析 连 续 力 学 各 类 问题 的 一 种 重要 手段 。 随 着 
计算 机 技术 的 普及 和 不 断 提高 ,CAE 系统 的 功能 和 计算 精度 都 有 很 大 提高 ,各 种 基于 产品 
数字 建 模 的 CAE 系统 应 运 而 生 , 并 已 成 为 结构 分 析 和 结构 优化 的 重要 工具 ,同时 也 是 计算 
机 辅助 4C 系统 (CAD/CAE/CAPP/CAM) 的 重要 环节 。CAE 系统 的 核心 思想 是 结构 的 离 
散 化 ,即将 实际 结构 离散 为 有 限 数 目的 规则 单元 组 合体 ,实际 结构 的 物理 性 能 可 以 通过 对 离 
散 体 进行 分 析 , 得 出 满足 工程 精度 的 近似 结果 来 蔡 代 对 实际 结构 的 分 析 , 这 样 可 以 解决 很 多 
实际 工程 需要 解决 而 理论 分 析 又 无 法 解决 的 复杂 问题 。 其 基本 过 程 是 将 一 个 形状 复杂 的 连 
续 体 的 求解 区 域 分 解 为 有 限 的 形状 简单 的 子 区 域 . 即 将 一 个 连续 体 简 化 为 由 有 限 个 单元 组 
合 的 等 效 组 合体 ; 通过 将 连续 体 离散 化 ,把 求解 连续 体 的 场 变量 (应 力 、 位 移 、 压 力 和 温度 
等 ) 问 题 简化 为 求解 有 限 的 单元 节点 上 的 场 变 量 值 。 此 时 得 到 的 基本 方程 是 一 个 代数 方程 
组 ,而 不 是 原来 描述 真实 连续 体 场 变 量 的 微分 方程 组 。 求 解 后 得 到 近似 的 数值 解 ,其 近似 程 
度 取决 于 所 采用 的 单元 类 型 .数量 以 及 对 单元 的 插值 函数 。 

计算 机 辅助 工程 技术 的 提出 就 是 要 把 工程 (生产 ) 的 各 个 环节 有 机 地 组 织 起 来 ,其 关键 
就 是 将 有 关 的 信息 集成 ,使 其 产生 并 存在 于 工程 (产品 ) 的 整个 生命 周期 。 因 此 ,CAE 系统 
是 一 个 包括 相关 人 员 、 技 术 、 经 营 管理 及 信息 流 和 物流 的 有 机 集成 且 优 化 运行 的 复杂 的 
系统 。 

5. 产品 数据 管理 

产品 数据 管理 (Product Data Management,PDM) 可 以 看 成 是 对 工程 数据 管理 ,文档 管 
理 、 产 品 信息 管 理 \ 技 术 数 据 管理 .图 像 管 理 及 其 他 产品 信息 管理 技术 的 一 种 概括 与 总 称 。 
最 早出 现 于 20 世纪 80 年 代 初 期 ,目的 是 解决 大 量 工程 图 纸 、 技 术 文 档 以 及 CAD 文件 的 电 
子 化 的 管理 问题 ,后 来 逐渐 扩展 到 产品 开发 中 的 三 个 主要 领域 : 设计 图 纸 和 电子 文档 的 管 
理 、 物 料 清单 管理 以 及 工程 文档 的 集成 、 工 程 变 更 请 求 /指令 的 跟踪 与 管理 。 由 于 PDM 技 
术 与 应 用 范围 发 展 很 快 , 人 们 对 它 还 没有 一 个 统一 的 认识 ,给 出 的 定义 也 不 完全 相同 。 从 狭 
义 上 讲 ,PDM 仅 管理 与 工程 设计 相关 领域 内 的 信息 ; 而 从 广义 上 讲 , 它 可 以 覆盖 到 整个 企 
业 中 从 产品 的 市 场 需求 、 研 究 开 发 .产品 设计 、 工 程 制 造 .销售 到 服务 与 维护 等 产品 全 生命 周 
期 中 的 信息 。 虽 然 PDM 软件 功能 越 来 越 丰富 ,但 文档 管理 .工作 流 、 项 目 管理 .产品 结构 、 
配置 管理 与 系统 集成 仍然 是 PDM 系统 的 基本 核心 功能 ,目前 企业 实施 PDM 也 主要 集中 在 
这 些 功 能 的 实现 上 。PDM 的 基本 原理 是 ,在 逻辑 上 将 各 个 CAX 信息 化 孤岛 集成 起 来 , 利 
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用 计算 机 系统 控制 整个 产品 的 开发 设计 过 程 ,通过 逐步 建立 虚拟 的 产品 模型 ,最 终 形成 完整 
的 产品 描述 .生产 过 程 描述 以 及 生产 过 程控 制 数 据 。 技 术 信息 系统 和 管理 信息 系统 的 有 机 
集成 ,构成 了 支持 整个 产品 形成 过 程 的 信息 系统 ,同时 也 建立 了 CIMS 的 技术 基础 。 通 过 建 
立 虚拟 的 产品 模型 ,PDM 系统 可 以 有 效 、 实 时 、 完 整地 控制 从 产品 规划 到 产品 报废 处 理 的 整 
个 产品 生命 周期 中 的 各 种 复杂 的 数字 化 信息 。 

6. 产品 生命 周期 管理 

产品 生命 周期 管理 (Product Lifecycle Management,PLM) ,按照 CIMDATA 的 定义 ， 
主要 包含 三 部 分 , 即 CAX 软件 (产品 创新 的 工具 类 软件 ) .cPDM 软件 (产品 创新 的 管理 类 软 
件 ,包括 PDM 和 在 网 上 共享 产品 模型 信息 的 协同 软件 等 ) 和 相关 的 咨询 服务 。 实 质 上 ， 
PLM 与 我 国 提出 的 C4P(CAD/CAPP/CAM/CAE/PDM) ,或 者 技术 信息 化 基本 上 指 的 是 
同样 的 领域 , 即 与 产品 创新 有 关 的 信息 技术 的 总 称 。 

从 另 一 个 角度 而 言 ,PLM 是 一 种 理念 , 即 对 产品 从 创建 到 使 用 ,到 最 终 报废 等 全 生命 周 
期 的 产品 数据 信息 进行 管理 的 理念 。 在 PLM 理念 产生 之 前 ,PDM 主要 是 针对 产品 研发 过 
程 的 数据 和 过 程 的 管理 。 而 在 PLM 理念 之 下 ,PDM 的 概念 得 到 延伸 ,成 为 cPDM, 即 基于 
协同 的 PDM, 可 以 实现 研发 部 门 ,企业 各 相关 部 门 ,甚至 企业 间 对 产品 数据 的 协同 应 用 。 

软件 厂商 推出 的 PLM 软件 是 PLM 第 三 个 层次 的 概念 。 这 些 软件 部 分 地 覆盖 了 
CIMDATA 定义 中 cPPDM 应 包含 的 功能 , 即 不 仅 针对 研发 过 程 中 的 产品 数据 进行 管理 , 同 
时 也 包括 产品 数据 在 生产 、 营 销 、 采 购 、 服 务 、 维 修 等 部 门 的 应 用 。 

因此 ,实质 上 PLM 有 三 个 层面 的 概念 , 即 PLM 领域 .PLM 理念 和 PLM 软件 产品 。 而 
PLM 软件 的 功能 是 PDM 软件 的 扩展 和 延伸 ,PLM 软件 的 核心 是 PDM 软件 。 


12.3.2 制造 控制 自动 化 系统 


制造 控制 自动 化 系统 是 制造 自动 化 分 系统 的 硬件 主体 ,主要 包括 专用 自动 化 机 床 、 组 合 
机 床 、 数 控 机 床 、 加 工 中 心 、 分 布 式 数 字 控 制 (DNC) 、 柔 性 制造 单元 (FMC)、 柔 性 制造 系统 
(FMS) .柔性 生产 线 (CFML) 等 加 工 设备 ,以 及 测量 设备 .辅助 设备 (如 刀具 系统 ). 夹 具 装 置 
等 。 还 有 传送 带 ` 有 轨 小 车 .自动 导向 小 车 立体 仓库 .搬运 机 器 人 托盘 站 等 。 

1. 数控 系统 

数控 系统 是 指 用 数字 量 发 出 指令 并 实现 产品 加 工 与 过 程控 制 的 系统 ,简称 NC 
(Numeric Control) 系统。 数控 系统 所 控制 的 一 般 是 位 置 . 角 度 、. 速 度 等 机 械 量 , 也 有 温度 、 
压力 流量 .颜色 等 物理 量 。 这 些 量 的 大 小 不 仅 可 用 数字 表示 ,而 且 是 可 测 的 。 如 果 一 台 机 
床 ( 如 铣床 .钻床 .冲床 .切割 机 床 等 ) 实 现 其 自动 工作 的 命令 是 以 数字 形式 来 描述 的 , 则 称 其 
为 数控 机 床 。 

2. CNC 系统 


CNC(Computer Numerical Control ,计算 机 数控 ) 系 统 完 成 的 功能 与 NC 机 床 相同 ,只 
是 CNC 机 床 的 逻辑 控制 .几何 与 工艺 数据 处 理 以 及 程序 的 执行 都 由 一 台 ( 或 多 台 ) 计 算 机 
完成 ,并 且 CNC 处 理 的 功能 更 为 强大 ,增加 了 柔性。 由 于 采用 了 计算 机 作为 控制 部 件 ， 
CNC 系统 通过 常 驻 在 计算 机 内 部 的 数控 软件 实现 部 分 或 全 部 数控 功能 ,从 而 能 对 机 床 运动 
进行 实时 控制 。 只 要 改变 计算 机 的 控制 软件 就 能 实现 一 种 新 的 控制 方式 ,这 是 CNC 系统 
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的 最 大 特点 。 整 个 CNC 系统 由 计算 机 软 硬 件 、 输 入 输出 设备 .CNC 控制 器 .可 编程 逻辑 控 
制 器 PLC( 大 多 内 装 在 CNC 控制 器 中 ) ,主轴 了 驱动 单元 和 进 给 驱动 单元 等 组 成 。 
3. DNC 系统 


DNC 是 分 布 式 数字 控制 (Distributed Numerical Control) 或 直接 数字 控制 (Direct 
Numerical Control) 的 简称 ,是 数控 设备 联网 运行 的 基本 方式 。 分 布 式 数字 控制 除 具 有 直接 
数字 控制 的 功能 外 ,还 具有 系统 信息 收集 .系统 状态 监控 以 及 系统 控制 等 功能 。DNC 中 ,有 
多 台 NC、CNC 机 床 与 过 程 计 算 机 相连 。 过 程 计 算 机 在 大 容量 存储 器 中 存 取 零 件 程序 ,并 通 
过 接口 将 这 些 程序 传 给 各 数控 机 床 ,完成 DNC 基本 功能 。 


12.3.3 制造 执行 系统 


制造 执行 系统 (Manufacturing Execution System,MES ) 的 概念 最 早 形成 于 20 世纪 80 
年 代 末 ,20 世纪 90 年 代 后 获得 迅速 发 展 。 其 目的 是 实现 生产 过 程 及 其 相关 的 人 物料、 设 
备 和 在 制品 的 全 面 集成 ,并 对 其 进行 有 效 管理 .跟踪 和 控制 ,是 最 终 实 现 制 造 过 程 的 计划 与 
物料 流动 .质量 控制 .工艺 等 的 全 面 集成 。 

制造 执行 系统 位 于 车 间 级 并 控制 执行 过 程 ,具有 十 分 重要 的 作用 , 它 在 计划 管理 层 与 底 
层 控制 之 间架 起 了 一 座 桥梁 ,填补 了 计划 管理 层 和 底层 控制 之 间 的 “鸿沟”。MES 是 面向 车 
间 生 产 过 程 的 “实时 ”生产 和 调度 ,一 方面 MES 可 以 将 来 自 ERP 软件 的 生产 管理 信息 细 化 、 
分 解 , 形 成 操作 指令 传递 给 底层 控制 ; 另 一 方面 MES 可 以 实时 监控 底层 设备 的 运行 状态 ， 
采集 设备 仪表 的 状态 数据 ,经 过 分 析 、 计 算 与 处 理 ,触发 新 的 事件 ,从 而 方便 可靠 地 将 控制 
系统 与 信息 系统 联系 在 一 起 。 

制造 执行 系统 是 面向 制造 过 程 的 , 它 必 然 与 其 他 的 制造 管理 系统 共享 和 交互 信息 ,这 些 
系统 包括 供应 链 管理 .计划 管理 .销售 和 客户 服务 管理 .产品 及 产品 工艺 管理 .财务 和 成 本 管 
理 以 及 底层 生产 控制 管理 等 。 图 12-5 反映 了 MES 与 企业 其 他 管理 系统 之 间 的 关系 。 





供应 链 > 业 资源 计 


企 d 
四 MES 划 管 理 
生产 计划 人 力 现场 
调度 管理 | | 资源 管理 数据 采集 
工序 级 详细 | | 资源 分 配 和 | | 产品 跟踪 和 产 | 财务 和 
生产 计划 | | 状态 管理 品 数据 管理 | 成 本 管理 
| a | Er 


2 工艺 设计 


图 12-5 MES 功能 模块 图 




















生产 过 程 
管理 

















348 


大 数据 数据 管理 与 数据 工程 


MES 主要 完成 制造 企业 中 的 生产 管理 任务 ,根据 国际 MES 协会 MESA 的 定义 ,MES 
系统 的 主要 功能 包括 11 个 方面 ,如 图 12-5 所 示 。 这 11 个 方面 基本 上 赛 括 所 有 的 生产 管理 
要 素 , 这 些 功能 的 取舍 取决 于 特定 的 企业 环境 和 期 望 的 产 出 效益 。 

(1) 资源 配置 与 状态 跟踪 。 对 所 有 的 生产 资料 进行 管理 ,包括 机 器 工具、 劳工 技能 、 材 
料 等 ,使 其 井然 有 序 , 随 时 可 以 投入 运转 。 同 时 记录 资源 的 各 种 历史 信息 ,以 保证 生产 设备 
的 配置 ,并 对 设备 的 实时 状态 信息 进行 跟踪 。 

(2) 工序 /细节 调度 。 根 据 生 产 单元 的 优先 级 、 属 性 、 特 征 ,对 生产 工序 进行 优化 ,使 生 
产 资源 配置 的 变化 降 到 最 低 。 

(3) 生产 计划 和 调度 。 制 定 生产 计划 ,并 以 任务 、 工 单 、 批 次 .订单 等 形式 下 发 给 各 生产 
单元 。 可 以 根据 生产 实绩 实时 调整 原始 计划 ,产生 新 的 调度 信息 。 

(4) 文档 控制 。 对 所 有 与 生产 单元 有 关 的 资料 进行 管理 ,包括 工作 指令 、 图 纸 、 配 方 、 标 
准 操作 流程 .设计 变更 .产品 记录 以 及 ISO 信息 等 ,并 进行 历史 数据 的 存储 。 

(5) 数据 采集 /获取 。 实 时 采集 生产 数据 ,记录 生产 单元 的 各 种 参数 ,并 保存 在 相应 的 
表格 和 记录 中 。 数 据 可 以 由 人 工 录入 和 从 设备 中 自动 采集 。 该 功能 需 向 外 提供 一 个 接口 ， 
以 便 其 他 应 用 可 以 通过 它 获得 生产 实时 数据 。 

(6) 人 力 资源 管理 。 记 录 员 工 的 考勤 以 及 专业 技能 。 提 供 员工 的 实时 状况 记录 ,同时 
与 资源 配置 功能 交互 ,以 产生 最 优 配置 。 

(7) 质量 管理 。 提 供 生产 的 实时 分 析 , 保 证 严格 的 产品 质量 控制 。 能 够 发 现 潜在 的 质 
量 问题 。 对 出 现 的 质量 问题 进行 诊断 分析, 并 提出 改进 方法 。 包 括 SPC/SQC 的 在 线 跟踪 
和 离线 分 析 功 能 。 

(8) 过 程 管理 : 对 生产 过 程 进行 监视 ,自动 纠正 或 提示 操作 人 员 纠 正 生产 中 的 丝 漏 。 
提供 报警 管理 以 及 MES 系统 与 智能 设备 的 接口 。 

(9) 维护 管理 。 跟 踪 并 指导 生产 ,以 维护 设备 和 工具 。 对 突 发 问题 做 出 快速 响应 。 建 
立 历史 事件 和 故障 记录 数据 库 , 协 助 完成 故障 诊断 。 

(10) 产品 跟踪 与 记录 。 提 供 可 视 化 的 跟踪 手段 ,监视 产品 的 状态 及 用 途 。 跟 踪 信 息 包 
括 加 工 者 、 原 料 供应 者 、 批 号 ,序列 号 、 当 前 产品 状态 ,报警 信息 、 返 工 及 异常 情况 。 通 过 跟踪 
信息 可 以 追溯 生产 历史 以 及 产品 最 终 用 途 。 

(11) 性 能 分 析 。 对 生产 实绩 和 历史 信息 进行 分 析 , 以 得 到 现实 生产 状况 的 效果 ,并 与 
预计 的 效果 进行 比较 。 


12.3.4 柔性 制造 系统 


柔性 制造 系统 (Flexible Manufacturing System,.FMS) 是 由 统一 的 信息 控制 系统 、 物 料 
储 运 系统 和 一 组 数字 控制 加 工 设备 组 成 ,能 适应 加 工 对 象 变换 的 自动 化 机 械 制 造 系统 。 
FMS 的 工艺 基础 是 成 组 技术 , 它 按照 成 组 的 加 工 对 象 确定 工艺 过 程 , 选 择 相 适应 的 数控 加 
工 设备 和 工件 .工具 等 物料 的 储 运 系统 ,并 由 计算 机 进行 控制 。 故 能 自动 调整 并 实现 一 定 范 
围 内 多 种 工件 的 成 批 高 效 生产 ,并 能 及 时 地 改变 产品 以 满足 市 场 需求 。FMS 兼 有 加 工 制造 
和 部 分 生产 管理 两 种 功能 ,因此 能 综合 地 提高 生产 效益 。FMS 的 工艺 范围 正在 不 断 扩大 ， 
包括 毛坯 制造 .机械 加 工 、 装 配 和 质量 检验 等 。 

柔性 制造 系统 是 一 种 技术 复杂 、 高 度 自动 化 的 系统 , 它 将 微 电 子 学 、 计 算 机 和 系统 工程 
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等 技术 有 机 地 结合 起 来 ,理想 和 圆满 地 解决 了 机 械 制造 高 自动 化 与 高 柔性 化 之 间 的 矛盾 。 
它 具 有 设备 利用 率 高 .生产 能 力 相 对 稳定 ,产品 质量 高 .运行 灵活 和 产品 应 变 能 力 大 的 优点 。 

FMS 可 以 分 成 以 下 4 个 等 级 : 柔性 制造 模块 .柔性 制造 单元 .柔性 自动 线 及 柔性 制造 
了 下 

(1) 柔性 制造 模块 (Flexible Manufacturing Module,FMM) : 是 一 台 扩 充 了 多 种 可 任 
选 功能 (如 刀具 库 、 随 行 托 架 、 交 换 装 置 等 ) 的 数控 机 床 。 

(2) 柔性 制造 单元 (Flexible Manufacturing Cell,FMC) : 一 个 FMC 一 般 包 括 两 三 个 
FMM ,它们 之 间 由 工件 自动 输送 设备 连接 。 

(3) 柔性 自动 线 (Flexible Tools Line,FTL): 又 称 柔 性 制造 系统 (Flexible Manufacturing 
System,FEMS) 。 一 般 包括 4 台 或 更 多 台 全 自动 CNC 机 床 。 各 自 备 有 搬运 小 车 自动 输送 物 
料 和 一 套 计算 机 控制 系统 用 以 管理 全 部 生产 计划 进度 .物料 搬运 以 及 对 机 床 群 加 工 过 程 实 
现 综合 控制 。 

(4) 柔性 制造 工厂 (Flexible Manufacturing Factory,FMF): 又 称 自动 化 工厂 (Factory 
Automation,FA)。 和 柔性 由 FMS 覆盖 到 全 厂 范围 ,在 全 厂 范围 内 实现 生产 管理 过 程 、 机 械 
加 工 过 程 和 物料 储 运 过 程 的 全 面 自动 化 ,并 由 计算 机 系统 进行 综合 控制 。FMEF 拥有 分 布 式 
多 级 计算 机 系统 (包括 生产 管理 级 主 计算 机 )、 自 动 仓库 、 十 几 乃 至 几 十 台 各 种 CNC 机 床 
(加工 中 心 ,车 前 中 心 .CNC 车 床 .CNC 磨床 .CNC 板材 加 工 机 床 等 )。FMF 是 一 种 初级 的 
CIMS。 


12.3.5 工业 互联 网 与 CPS 系统 


GE 的 工业 互联 网 与 德国 的 工业 4. 0 是 应 时 代 的 技术 基础 和 需求 基础 而 产生 的 , 均 是 
基于 当前 的 信息 基础 ,市 场 需求 ,企业 制造 的 成 长 及 产品 用 户 的 体验 而 提出 制造 与 服务 的 升 
级 。 工 业 互 联网 更 多 基于 企业 内 部 的 制造 升级 和 产品 的 运行 与 维护 。 德 国 工业 4.0 提出 的 
CPS 概念 概括 了 工业 制造 的 通用 特征 : 物理 设备 与 信息 系统 的 协同 。 可 以 认为 工业 互联 网 
和 德国 工业 4.0 提出 的 CPS 是 下 一 代 工 业 制造 的 不 同 视角 。 

2012 年 ,美国 GE 公司 提出 将 工业 生产 中 的 设备 ,数据 和 人 进行 有 机 结合 ,突破 智慧 和 
机 器 边缘 ,搭载 互联 网 与 工业 连接 ,并 称 之 为 “工业 互联 网 *。 工 业 互 联网 的 目标 是 通过 机 器 
和 先进 的 传感器 ,控制 和 软件 应 用 相连 接 ,以 提高 生产 效率 、 减 少 资源 消耗 。 工 业 互 联网 的 
关键 要 素 为 : 智能 机 器 .工作 人 员 ,智慧 分 析 。 为 推行 工业 互联 网 的 理念 ,GE 提出 了 1% 的 
指标 ,并 预测 ,每 提高 1% 的 燃油 效率 ,航空 业 每 年 能 节省 20 亿美 元 ,而 能 源 行业 则 能 节省 
40 亿美 元 。 

GE 通过 自身 制造 体系 实践 工业 互联 网 ,在 其 产品 中 增加 更 多 的 传感器 来 获取 海量 数 
据 , 并 最 终 帮 客户 提高 其 机 车 引擎 、 核 磁 共 振 仪器 等 设备 的 能 源 效率 。 在 工业 互联 网 战略 
下 ,GE 定位 不 再 是 软件 公司 和 咨询 公司 ,也 不 是 装备 公司 ,而 定位 自己 是 以 资产 为 出 发 点 ， 
是 一 家 服务 公司 ,并 通过 智能 机 器 的 运营 将 数据 服务 作为 自己 最 重要 的 产品 。GE 的 工业 
互联 网 将 智能 制造 的 制造 环节 和 产品 使 用 ,运营 维护 连接 在 一 起 。 

1. CPS 系统 框架 

“工业 4. 0? 是 德国 政府 (高 技术 战略 2020》 确 定 的 十 大 未 来 项 目 之 一 ,研究 项 目 最 初 由 
德国 联邦 教研 部 与 联邦 经 济 技术 部 联手 资助 ,在 德国 工程 院 . 弗 劳 因 霍 夫 协会 ,西门子 公司 
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等 德国 学 术 界 和 产业 界 的 建议 和 推动 下 形成 ,德国 政府 在 2013 年 4 月 的 汉诺威 工业 博览 会 
上 正式 推出 “工业 4.0” 战 略 ,其 目的 是 为 了 提高 德国 工业 的 系统 性 竞争 力 。 与 德国 类 似 , 美 
国 2012 年 提出 (美国 先进 制造 业 国 家 战略 计划 》, 旨 在 组 建 各 领域 的 制造 创新 研究 所 
(IMD ,从 而 建立 起 全 国 性 的 制造 业 领 域 的 产 学 研 虚拟 联合 网 络 。 英 国 2013 年 提出 (英国 
工业 2050 战略 》。 

“工业 4.0” 概 念 包 含 由 集中 式 控 制 向 分 散 式 自 组织 的 基本 模式 转变 ,目标 是 建立 一 个 
高 度 灵 活 的 个 性 化 和 数字 化 的 产品 与 服务 的 生产 模式 。“ 工 业 4.0” 提 出 了 信息 物理 系统 
(Cyber Physical System) ,将 制造 业 融合 成 为 020 形态 。 

工业 4.0 中 的 核心 CPS 平 台 即 适应 具有 协作 性 特点 的 商业 化 进程 和 连接 智能 工厂 和 
智能 产品 的 全 生命 周期 各 方面 的 整个 商业 网 络 ,因为 其 如 下 特点 为 企业 的 智能 制造 带 来 不 
仅 技术 变革 更 是 商业 模式 的 变化 。 

(1) 支持 商业 网 络 中 互相 协助 的 生产 、 服 务 、 分 析 和 预测 ; 

(2) 适应 具有 协作 性 特点 的 商业 化 进程 和 连接 智能 工厂 和 智能 产品 的 全 生命 周期 各 方 
面 的 整个 商业 网 络 ; 

(3) 提供 迅速 和 简单 流程 的 服务 和 应 用 ; 

(4) 在 App Store 模式 链 下 实现 商业 进程 中 的 调配 和 部 署 ; 

(5) 提供 综合 性 强 .安全 可 信 的 全 商业 进程 支持 ; 

(6) 保障 从 传感器 到 客户 交流 所 有 环节 的 安全 和 可 靠 系统 ; 

(7) 支持 移动 端 设 备 。 

2. 工业 4.0 明确 支持 CPS 平台 的 8 大 关键 领域 

(1) 标准 化 与 参考 架构 。 开 发 出 一 套 单一 的 共同 标准 ,合作 伙伴 关系 才 可 能 形成 ,需要 
一 个 参考 架构 为 标准 提供 技术 说 明 。 

(2) 管理 复杂 系统 的 模型 及 相应 方法 。 建 立 适 应 日 益 复杂 系统 的 交互 模型 ,提供 开发 
这 些 模 型 所 需 的 方法 和 工具 。 

(3) 基础 设施 。 可 靠 , 全 面 和 高 质量 的 通信 网络 是 实现 工业 4.0 的 基础 条 件 。 

(4) 安全 和 保障 。 在 通用 安全 标准 下 适应 工业 生产 过 程 及 产品 数据 信息 的 安全 体系 。 

(5) 工作 的 组 织 和 设计 。 智 能 工厂 中 员工 的 参与 性 工作 设计 及 学 习 模 型 ,工作 流程 、 工 
作 环 境 的 重 构 。 

(6) 培训 和 持续 的 专业 发 展 。 需 要 提供 数字 化 学 习 计 划 及 支撑 数字 化 学 习 的 相关 技术 
体系 。 

(7) 监管 框架 。 企业 数 据 、 责 任 问题 ,处 理 个 人 数据 以 及 贸易 限制 等 法 规 的 适应 性 
变化 。 

(8) 资源 利用 效率 。 需 要 实现 在 智能 工厂 中 投入 的 额外 资源 与 产生 的 节约 潜力 之 间 的 
平衡 。 

为 实现 工业 4.0 提出 的 三 大 主题 : 智慧 工厂 .智慧 生产 和 智慧 物流 ,策略 文件 提出 了 横 
向 集成 和 纵向 集成 的 两 种 方法 。 

横向 集成 是 指 将 不 同 制造 阶段 和 商业 计划 的 IT 系统 集成 在 一 起 , 既 包 括 公 司 内 部 的 
材料 .能源 和 信息 的 配置 (例如 ,原材料 物流 ,生产 过 程 ,产品 外 出 物流 ,市 场 营销 ) ,也 包括 不 
同 公司 间 的 配置 (价值 网 络 ) ,实现 企业 的 价值 网 络 。 垂 直 集成 是 指 将 不 同 层面 的 IT 系统 
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集成 在 一 起 (例如 ,执行 器 和 传感器 ,控制 ,生产 管理 ,制造 和 执行 及 企业 计划 等 各 种 不 同 层 
面 ) ,实现 网 络 化 制造 系统 。 横 向 集成 和 垂直 集成 最 后 实现 贯穿 整个 价值 链 的 端 到 端 工程 数 
字 化 集成 。 

高 度 动态 配置 与 数据 交换 的 标准 化 是 工业 4. 0 追求 的 两 大 目标 。 高 度 动 态 配置 指 机 器 
系统 通过 网 络 实时 获得 相关 信息 ,自主 切换 生产 材料 ` 生 产 方式 ,形成 最 佳 配置 ; 根据 不 同 
客户 不 同 产品 动态 配置 模块 化 生产 线 、 模 块 化 工厂 。 而 数据 交换 标准 化 则 包括 工厂 内 部 作 
业 与 生产 线 标准 化 ` 智 能 工厂 生态 链 各 环节 标准 化 制造 业务 应 用 系统 之 间 的 交换 信息 标 
准 化 。 

在 工业 4.0 战略 文件 中 ,创新 制造 业 的 商业 模式 是 以 解决 顾客 问题 为 核心 。 


12.3.6 ERP 信息 系统 


一 般 来 说 ,企业 常见 的 ERP 功能 模块 有 : 供应 链 与 客户 关系 管理 模块 销售 管理 模块 、 
产品 设计 管理 模块 .采购 管理 模块 .计划 管理 模块 .生产 管理 模块 .库存 管理 模块 .设备 管理 
模块 质量 检验 管理 模块 .财务 管理 模块 、 人 力 资源 管理 模块 。 主 要 流程 如 图 12-6 所 示 。 
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图 12-6 ERP 生产 流程 图 



































1. 供应 链 与 客户 关系 管理 模块 

供应 链 管 理 (SCM) 是 对 由 供应 商 、 制 造 商 、 分 销 商 .零售 商 到 顾客 所 构成 的 网 络 中 的 物 
流 、 信 息 流 资金 流 进行 管理 。 供 应 链 也 称 " 需 求 链 ? 或 “价值 链 ”, 是 实现 最 终 顾客 价值 的 综 
合 过 程 。 客 户 关系 管理 包括 对 客户 档案 信息 维护 ; 时 间 管 理 ; 潜在 客户 /项 目 管理 /销售 管 
理 ; 合作 伙伴 关系 管理 ; 客户 服务 管理 ; 市 场 /销售 管理 ; 客户 档案 维护 /跟踪 /分 类 ; 进行 
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销售 预测 ; 客户 咨询 、 要 求 提供 售后 服务 及 反馈 的 受理 ; 对 客户 进行 满意 度 的 分 析 。 

2. 销售 管理 模块 

销售 管理 是 对 销售 合同 、 客 户 档 案 、 销 售 出 库 、 开 票 结账 直到 售后 服务 的 销售 业务 全 过 
程 进行 跟踪 管理 和 统计 分 析 , 为 制定 营销 策略 提供 决策 依据 。 销 售 管理 模块 的 功能 主要 有 : 
制定 销售 计划 和 产品 报价 ; 根据 相关 信息 制定 销售 订单 ; 对 销售 合同 进行 管理 : 按照 销售 
订单 组 织 货源 ,安排 发 运 , 并 将 发 货 情况 转交 财务 部 ; 对 销售 情况 进行 统计 、 分 析 ; 开 出 销 
售 发 票 , 并 向 顾客 催收 货款 。 

3. 产品 设计 管理 模块 

产品 设计 管理 是 从 明确 设计 任务 开始 ,到 完成 图 样 和 技术 文件 为 止 的 技术 工作 过 程 。 
它 包 括 使 用 要 求 的 分 析 、 设 计 方案 (物流 清单 BOM 产品 档案 和 生产 工艺 ) 的 优选 .制图 、. 试 
制 , 验 证 形成 图 样 和 技术 文件 等 内 容 。 

4. 计划 管理 模块 

计划 管理 的 内 容 覆 盖 了 企业 各 阶段 所 有 职能 的 活动 ,其 内 容 主 要 包括 : 主 生产 计划 
MPS 物料 需求 计划 MRP 能 力 需 求 计划 、 采 购 计 划 、 制 造 计划 、 委 外 加 工 计划 等 。 

5. 采购 管理 模块 

采购 管理 用 来 确定 合理 的 订货 量 、 优 秀 的 供应 商 和 保持 最 佳 的 安全 储备 。 其 功能 主要 
有 : 对 供应 商 进行 管理 ; 执行 采购 合同 ; 能 够 随时 提供 订购 、 验 收 的 信息 ,保证 货物 及 时 
到 达 。 

6. 生产 管理 模块 

这 一 部 分 是 ERP 系统 的 核心 所 在 , 它 将 企业 的 整个 生产 过 程 有 机 地 结合 在 一 起 ,使 得 
企业 能 够 有 效 地 降低 库存 ,提高 效率 。 同 时 使 各 个 原本 分 散 的 生产 流程 自动 连接 ,也 使 得 生 
产 流程 能 够 前 后 连贯 的 进行 ,而 不 会 出 现 生 产 脱节 ,耽误 生产 交 货 时 间 。 它 主要 涉及 : 对 车 
间作 业 进 行 管理 和 准时 生产 管理 。 

7. 库存 管理 模块 

库存 管理 是 企业 记录 、 检 查 、 跟 踪 、 结 存 其 库存 活动 的 基础 ,是 生产 计划 和 库存 控制 系统 
中 库存 基础 数据 维护 的 主要 环节 。 对 物料 管理 ,进行 ABC 分 类 分 析 , 确 定 与 采购 决策 相 匹 
配 的 库存 补充 订货 策略 和 订货 批量 计算 方法 。 库 存 管理 应 当 包 括 如 下 基本 功能 : 仓库 的 发 
货 和 接收 管理 ; 保管 退货、 盘点 ,调拨 和 预警 管理 ; 库存 账 务 处 理 等 。 

8. 设备 管理 模块 

设备 管理 使 有 限 的 设备 资源 ,发 挥 最 大 的 经 济 效益 。 其 基本 功能 包括 : 建立 设备 、 仪 
器 .工装 .模具 和 维修 备件 台 账 : 编制 设备 维修 计划 ; 生产 、 测 试 设备 运营 管理 ; 检查 记 
录 等 。 

9. 质量 检验 管理 模块 

ERP 中 的 质量 检验 管理 主要 对 来 料 、 在 制品 及 成 品 进行 质量 检验 。 它 的 基本 功能 包 
括 : 制定 检验 计划 ; 根据 检验 计划 进行 来 料 ,在 制品 及 成 品 检验 ; 做 好 相关 检验 记录 。 

10. 财务 管理 模块 

财务 管理 是 ERP 系统 中 的 重要 组 成 部 分 . 它 从 货币 的 角度 综合 反映 企业 的 生产 经 营 情 
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况 ,通常 财务 管理 可 以 由 总 账 、 固 定 资产 \ 成 本 核算 及 控制 ,应 收 /应 付 账 款 管理 ,财务 分 析 等 
构成 财务 管理 的 基本 功能 。 具 体 如 下 : 总 账 管理 ,包括 建立 科目 体系 、 会 计 核 算 、 多 币 种 账 
务 管理 ,现金 管理 及 财务 分 析 、 自 动产 生财 务 报表 等 功能 ; 固定 资产 管理 ,包括 建立 固定 资 
产 台 账 、 固 定 资产 折旧 计算 等 功能 ; 应 收 / 应 付 账 款 管理 ,包括 建立 应 收 / 应 付 账 款 , 回 款 / 付 
款 、 订 金 、 退 货 / 折 让 处 理 ,应 收 /应 付 账 月 结 转 ,坏账 处 理 等 功能 。 

11. 人 力 资源 管理 模块 

以 往 的 ERP 系统 基本 上 都 是 以 生产 制造 及 分 销 过 程 为 中 心 的 。 因 此 ,长 期 以 来 它 一 直 
把 与 制造 资源 相关 的 资源 作为 核心 资源 来 进行 管理 。 但 近年 来 ,企业 内 部 的 人 力 资源 越 来 
越 受到 关注 ,并 被 视 为 企业 的 资源 之 本 。 在 此 情况 下 ,人 力 资源 管理 作为 一 个 独立 的 模块 ， 
被 加 入 到 了 ERP 的 系统 中 来 ,和 ERP 中 的 财务 .生产 系统 组 成 了 一 个 高 效 的 .具有 高 度 集 
成 性 的 企业 资源 系统 。 它 与 传统 方式 下 的 人 事 管 理 有 着 根本 的 不 同 。 现 代 人 力 资源 管理 主 
要 包括 : 人 力 资源 计划 、 招 聘 和 选择 `、 人 力 资 源 开 发 .报酬 和 福利 .安全 和 健康 .员工 和 劳动 
关系 以 及 人 力 资源 研究 。 


12.4 工业 大 数据 架构 体系 


12.4.1 互联 网 催生 工业 大 数据 


工业 4.0 时 代 本 质 上 仍然 是 企业 互联 网 转型 的 一 个 重要 部 分 和 发 展 方向 , 它 是 生产 制 
造 过 程 的 改进 与 变革 ,探索 与 互联 网 、 物 联网 ,大 数据 等 融合 基础 上 的 工业 革命 ,描绘 不 远 的 
未 来 工业 社会 景象 。 就 像 德国 工业 4. 0 变革 ,德国 和 美国 从 不 同 角度 给 出 了 他 们 的 答案 ,这 
也 给 中 国 制 造 产 业 升级 给 予 很 大 启示 。 

德国 工业 4. 0 是 在 一 个 * 智 能、 网 络 化 的 世界 里 , 物 联网 和 务 联 网 (服务 互联 网 技术 ) 将 
渗透 到 所 有 的 关键 领域 ,创造 新 价值 的 过 程 逐 步 发 生 改变 ,产业 链 分 工 将 重组 ,传统 的 行业 
界限 将 消失 ,并 会 产生 各 种 新 的 活动 领域 和 合作 形式 。 

美国 在 工业 革命 和 互联 网 革命 之 后 .2012 年 11 月 26 日 ,通用 电气 (以 下 简称 GE) 发 布 
白皮书 (工业 互联 网 : 打破 智慧 与 机 器 的 边界 》 提 出 工业 互联 网 的 概念 。GE 的 首席 执行 官 
伊 梅 尔 特 给 出 了 所 谓 工 业 互 联网 的 定义 : 

“开放 全球 化 的 网 络 ,将 人 数据 和 机 器 连接 起 来 。 工 业 互 联网 的 目标 是 升级 那些 关键 
的 工业 领域 . “这 是 一 个 庞大 的 物理 世界 ,由 机 器 ,设备 ,集群 和 网 络 组 成 ,能 够 在 更 深 的 层 
面 和 连接 能 力 、 大 数据 \ 数 字 分 析 相 结合 。 这 就 是 工业 互联 网 革命 .GE 还 大 致 描述 了 创新 
型 工业 互联 网 概念 的 理念 , 即 通 用 平台 、 网 络 和 数据 的 开放 引入 第 三 方 创新 者 打造 全 新 的 服 
务 和 商业 模式 。GE 白皮书 预测 ,在 美国 ,如 果 工 业 互联 网 能 够 使 生产 率 每 年 提高 1% ~ 
1.5% ,使 其 重 回 互联 网 革命 时 期 的 峰值 水 平 ,那么 未 来 20 年 , 它 将 使 平均 收入 比 当 前 水 平 
提供 25% 一 40% 。 

两 者 相 比 ,美国 工业 关注 的 是 生产 过 程 的 标准 化 和 智能 化 ,德国 工业 则 是 生产 设备 本 身 
的 智能 化 。 美 国 工业 努力 减少 人 对 生产 过 程 的 参与 ,提高 生产 线 的 柔性 ; 德国 工业 努力 提 
高 设备 安全 性 、 降 低能 源 损耗 、 降 低 设 备 维护 量 。 二 者 从 不 同 角度 ,充分 利用 互联 网 相关 技 
术 , 对 工业 进行 系统 化 .智能 化 的 改造 ,最终 结果 殊途同归 ,实现 一 个 万 物 互联 的 全 新 工业 文 
明 时 代 。 
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a en pe 

我 国 几乎 所 有 的 产业 伴随 着 新 一 轮 产 业 整 合 、 劳 动力 成 本 的 逐年 上 升 、 环 境 方面 的 恶化 
等 因素 ,生产 力 涨幅 有 限 的 条 件 下 .提出 了 供给 侧 改革 。 工 业 化 必然 要 追求 集约 化 .智能 化 、 
环保 化 等 方面 的 变革 和 升级 。 

中 国 工程 院 院士 .同济 大 学 教授 郭 重庆 在 一 次 “互联 网 将 重新 定义 制造 业 ” 的 主题 报告 
中 指出 ,当今 制造 业 价 值 链 的 每 个 环节 一 一 研发 设计、 生产、 销售 、 服 务必 须 再 定义 ,新 的 产 
品 、 新 的 流程 和 新 的 服务 必须 基于 互联 网 的 技术 再 造 。 企 业 的 生存 与 发 展 将 更 多 地 依赖 实 
施 化 市 场 洞 彻 ,精确 地 满足 消费 者 需求 。 互 联网 开源 、 开 放 、 共 创 、 共 享 的 特性 恰好 能 够 从 纵 
向 供应 链 整合 ,到 横向 价值 链 整 合 上 为 制造 业 创 造 更 多 的 发 展 空 间 。 

“互联 网 十 工业 ”将 成 为 未 来 制造 业 企业 发 展 的 范式 (图 12-7).“ 工 业 互 联网 将 人 和 机 
器 连接 起 来 ,将 为 制造 商 和 客户 带 来 前 所 未 有 的 数据 、 信 息 和 解决 方案 .” 郭 重庆 认为 ,中 国 
消费 互联 网 企业 基本 上 是 在 跟随 和 复制 美国 互联 网 企业 的 商业 模式 ; 而 中 国有 佛 大 的 制造 
此 生产 能 力 和 消费 市 场 ,中 国 工业 互联 网 完全 可 以 跨越 美国 而 抢先 一 步 , 为 中 国 制造 业 的 产 
此 升级 创造 好 的 平台 和 机 遇 。 





| 
| 





图 12-7 互联 网 十 工业 (智能 制造 工厂 ) 


12.4.2 工业 大 数据 内 涵 特 征 


工业 大 数据 是 指 在 工业 领域 信息 化 应 用 中 所 产生 的 数据 ,是 工业 互联 网 的 核心 ,是 工业 
智能 化 发 展 的 关键 。 工 业 大 数据 是 基于 网 络 互联 和 大 数据 技术 ,贯穿 于 工业 的 设计 、 工 艺 、 
生产 ,管理 ,服务 等 各 个 环节 ,使 工业 系统 具备 描述 ,诊断 、 预 测 、 决 策 、 控 制 等 智能 化 功能 的 
模式 和 结果 。 如 图 12-8 所 示 为 中 国 制造 大 数据 分 析 。 工 业 大 数据 从 类 型 上 主要 分 为 现场 
设备 数据 生产 管理 数据 和 外 部 数据 。 现 场 设备 数据 是 来 源 于 工业 生产 线 设备 、 机 器 、 产 品 
等 方面 的 数据 ,多 由 传感器 、 设 备 仪器 仪表 ,工业 控制 系统 进行 采集 产生 .包括 设备 的 运行 数 
据 、 生 产 环 境 数 据 等 。 生 产 管理 数据 是 指 传 统 信 息 管理 系统 中 产生 的 数据 ,如 SCM、CRM、 
ERP、MES 等 。 外 部 数据 是 指 来 源 于 工厂 外 部 的 数据 ,主要 包括 来 自 互联 网 的 市 场 、 环 境 、 
客户 政府、 供应 链 等 外 部 环境 的 信息 和 数据 。 

工业 大 数据 具有 5 大 特征 。 一 是 数据 体 量 巨 大 ,大 量 机 器 设备 的 高 频数 据 和 互联 网 数 
据 持 续 涌 和 人, 大 型 工业 企业 的 数据 集 将 达到 PB 级 甚至 EB 级 别 。 二 是 数据 分 布 广泛 ,分布 
于 机 器 设备 ,工业 产品 ,管理 系统 、 互 联网 等 各 个 环节 。 三 是 结构 复杂 , 既 有 结构 化 和 半 结 构 
化 的 传 感 数据 ,也 有 非 结 构 化 数据 。 四 是 数据 处 理 速度 需求 多 样 ,生产 现场 级 要 求实 现实 时 


第 12 章 中 国 制造 大 数据 解决 方案 


时 间 分 析 达 到 毫秒 级 ,管理 与 决策 应 用 需要 支持 交互 式 或 批量 数据 分 析 。 五 是 对 数据 分 析 
的 置信 度 要 求 较 高 ,相关 关系 分 析 不 足以 支撑 故障 诊断 、 预 测 预警 等 工业 应 用 ,需要 将 物理 
,追踪 挖掘 因果 关系 。 


模型 与 数据 模型 结合 





供应 商 绩效 分 析 
图 12-8 中 国 制造 大 数据 分 析 


12.4.3 工业 大 数据 业务 架构 

工业 大 数据 的 应 用 覆盖 工业 生产 的 全 流程 和 产品 的 全 生命 周期 。 工 业 大 数据 的 作用 主 
要 表现 为 状态 描述 .诊断 分 析 预测 预警 .辅助 决策 等 方面 ,在 智能 化 生产 、 网 络 化 协同 ,个 性 
化 定制 和 服务 化 延伸 4 类 场景 下 发 挥 着 核心 的 驱动 作用 。 工 业 大 数据 技术 应 用 示意 如 
图 12-9 所 示 。 
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图 12-9 工业 大 数据 应 用 示意 图 
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大 数据 .数据 管理 与 数据 工程 


1. 智能 化 生产 中 的 工业 大 数据 应 用 

虚拟 设计 与 虚拟 制造 。 虚 拟 设计 与 虚拟 制造 是 指 将 大 数据 技术 与 CAD、CAE、CAM 等 
设计 工具 相 结合 ,深入 了 解 历史 工艺 流程 数据 , 找 出 产品 方案 .工艺 流程 .工厂 布局 与 投入 之 
间 的 模式 和 关系 ,对 过 去 彼此 孤立 的 各 类 数据 进行 汇总 和 分 析 , 建 立 设计 资源 模型 库 、 历 史 
经 验 模型 库 , 优 化 产品 设计 、 工 艺 规划 、 工 厂 布局 规划 方案 ,并 缩短 产品 研发 周期 。 

生产 工艺 与 流程 优化 。 生 产 工艺 与 流程 优化 是 指 应 用 大 数据 分 析 功 能 ,评估 和 改进 当 
前 操作 工艺 流程 ,对 偏离 标准 工艺 流程 的 情况 进行 报警 ,快速 地 发 现 错误 或 者 瓶颈 所 在 , 实 
现 生产 过 程 中 工艺 流程 的 快速 优化 与 调整 。 

设备 预测 维护 。 设 备 预测 性 维护 是 指 建立 大 数据 平台 ,从 现场 设备 状态 监测 系统 和 实 
时 数据 库 系 统 中 获取 设备 振动 .温度 .压力 流量 等 数据 ,在 大 数据 平台 对 数据 进行 存储 管 
理 ,进一步 通过 构建 基于 规则 的 故障 诊断 .基于 案例 的 故障 诊断 、 设 备 状 态 劣 化 趋势 预测 .部 
件 剩余 寿命 预测 等 模型 ,通过 数据 分 析 进 行 设备 故障 预测 与 诊断 。 

智能 生产 排 程 。 智 能 生产 排 程 是 指 收集 客户 订单 .生产线 、 人 员 等 数据 ,通过 大 数据 技 
术 发 现 历史 预测 与 实际 的 偏差 概率 ,考虑 产能 约束 、 人 员 技 能 约束 、 物 料 可 用 约束 工装 模具 
约束 ,通过 智能 的 优化 算法 ,制定 预计 划 排 产 , 并 监控 计划 与 现场 实际 的 偏差 ,动态 地 调整 计 
划 排 产 。 

产品 质量 优化 。 产 品质 量 优化 是 指 通过 收集 生产 线 .产品 等 实时 数据 和 历史 数据 ,根据 
以 往 经 验 建 立 大 数据 模型 ,对 质量 缺陷 产品 的 生产 全 过 程 进 行 回 溯 , 快 速 甄别 原因 ,改进 生 
产 问题 ,优化 提升 产品 质量 。 

能 源 消 耗 管控 。 能 源 消 耗 管控 是 指 对 企业 生产 线 各 关键 环节 能 耗 排放 和 辅助 传动 输 配 
环节 的 实时 监控 ,收集 生产 线 .关键 环节 能 耗 等 相关 数据 ,建立 能 耗 仿 真 模型 ,进行 多 维度 能 
耗 模型 仿真 预测 分 析 ,获得 生产 线 各 环节 的 节能 空间 数据 ,协同 操作 智能 优化 负荷 与 能 耗 平 
衡 , 从 而 实现 整体 生产 线 柔 性 节能 降 耗 减 排 ,及 时 发 现 能 耗 的 异常 或 峰值 情况 ,实现 生产 过 
程 中 的 能 源 消 耗 实时 优化 。 

2. 网 络 化 协同 中 的 工业 大 数据 应 用 

协同 研发 与 制造 。 协 同 研发 与 制造 主要 是 基于 统一 的 设计 平台 和 制造 资源 信息 平台 ， 
集成 设计 工具 库 、 模 型 库 .知识 库 及 制造 企业 生产 能 力 信息 ,不 同 地 域 的 企业 或 分 支 机 构 可 
以 通过 工业 互联 网 网 络 访问 设计 平台 获取 相同 的 设计 数据 ,也 可 获得 同类 制造 企业 闲置 生 
产能 力 ,实现 多 站 点 协同 、 多 任务 并 行 、 多 企业 合作 的 异地 协同 设计 与 制造 要 求 。 

供应 链 配送 体系 优化 。 供 应 链 配 送 体系 优化 主要 是 通过 RFID 等 产品 电子 标识 技术 、 
物 联网 技术 以 及 移动 互联 网 技术 获得 供应 商 、 库 存 、 物 流 、 生 产 、 销 售 等 完整 产品 供应 链 的 大 
数据 ,利用 这 些 数据 进行 分 析 ,确定 采购 物料 数量 .运送 时 间 等 ,实现 供应 链 优化 。 

3. 个 性 化 定制 中 的 工业 大 数据 应 用 

用 户 需求 挖掘。 用 户 需求 挖掘 主要 指 建立 用 户 对 商品 需求 的 分 析 体 系 , 挖 掘 用 户 深层 
次 的 需求 ,并 建立 科学 的 商品 生产 方案 分 析 系 统 , 结 合用 户 需 求 与 产品 生产 ,形成 满足 消费 
者 预期 的 各 品类 生产 方案 等 ,实现 对 市 场 的 预知 性 判断 。 

个 性 化 定制 生产 。 个 性 化 定制 生产 主要 指 采集 客户 个 性 化 需求 数据 、 工 业 企业 生产 数 
据 、 外 部 环境 数据 等 信息 ,建立 个 性 化 产品 模型 ,将 产品 方案 .物料 清单 .工艺 方案 通过 制造 
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执行 系统 快速 传递 给 生产 现场 ,进行 产 线 调整 和 物料 准备 ,快速 生产 出 符合 个 性 化 需求 的 定 
制 化 产品 。 

4. 服务 化 延伸 中 的 工业 大 数据 应 用 

产品 远程 服务 。 产 品 远 程 服务 是 指 通过 搭建 企业 产品 数据 平台 ,围绕 智能 装备 .智能 家 
居 、 可 穿戴 设备 智能 联网 汽车 等 多 类 智能 产品 ,采集 产品 数据 ,建立 产品 性 能 预测 分 析 模 
型 ,提供 智能 产品 的 远程 监测 .诊断 与 运 维 服务 ,创造 产品 新 的 价值 ,实现 制造 企业 的 服务 化 
转型 。 


12.4.4 工业 大 数据 技术 架构 


工业 互联 网 数据 架构 ,从 功能 视角 看 ,主要 由 数据 采集 与 交换 、 数 据 预 处 理 与 存储 、 数 据 
建 模 、 数 据 分 析 和 数据 驱动 下 的 决策 与 控制 应 用 4 个 层次 5 大 部 分 组 成 ,如 图 12-10 所 示 。 
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图 12-10 工业 大 数据 技术 架构 


数据 采集 与 交换 层 主要 实现 工业 各 环节 数据 的 采集 与 交换 ,数据 源 既 包含 来 自传 感 器 、 
SCADA MES、ERP 等 内 部 系统 的 数据 ,也 包含 来 自 企 业 外 部 的 数据 ,主要 包含 对 象 感知 、 
实时 采集 与 批量 采集 .数据 核查 .数据 路 由 等 功能 。 

数据 预 处 理 与 存储 层 的 关键 目标 是 实现 工业 互联 网 数据 的 初步 清洗 、 集 成 ,并 将 工业 系 
统 与 数据 对 象 进行 关联 ,主要 包含 数据 预 处 理 ,数据 存储 等 功能 。 

数据 建 模 层 根据 工业 实际 元 素 与 业务 流程 ,在 数据 基础 上 构建 用 户 、 设 备 、 产 品 、 产 线 、 
工厂 工艺 等 数字 化 模型 ,并 结合 数据 分 析 层 提供 数据 报表 、 可 视 化 ,知识 库 数据 分 析 工 具 
及 数据 开放 功能 ,为 各 类 决策 分 析 提 供 支持 。 

决策 与 控制 应 用 层 主 要 是 基于 数据 分 析 结 果 , 生 成 描述 、 诊 断 、 预 测 、 决 策 、 控 制 等 不 同 
应 用 ,形成 优化 决策 建议 或 产生 直接 控制 指令 ,从 而 实现 个 性 化 定制 ,智能 化 生产 、 协 同化 组 
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织 和 服务 化 制造 等 创新 模式 ,并 将 结果 以 数据 化 形式 存储 下 来 ,最 终 构成 从 数据 采集 到 设 
备 、 生 产 现 场 及 企业 运营 管理 持续 优化 闭环 。 


12.4.5 工业 大 数据 安全 架构 


工业 互联 网 的 安全 需求 可 从 工业 和 互联 网 两 个 视角 分 析 。 从 工业 视角 看 ,安全 的 重点 
是 保障 智能 化 生产 的 连续 性 、 可 靠 性 ,关注 智能 装备 ,工业 控制 设备 及 系统 的 安全 ; 从 互联 
网 视角 看 ,安全 主要 保障 个 性 化 定制 ,网 络 化 协同 以 及 服务 化 延伸 等 工业 互联 网 应 用 的 安全 
运行 以 提供 持续 的 服务 能 力 , 防 止 重要 数据 的 泄漏 ,重点 关注 工业 应 用 安全 、 网 络 安 全 、 工 业 
数据 安全 以 及 智能 产品 的 服务 安全 。 因 此 ,从 构建 工业 互联 网 大 数据 安全 保障 体系 的 数据 
安全 与 个 人 隐私 等 方面 ,包括 支撑 工业 互联 网 业务 运行 的 应 用 软件 及 平台 的 安全 ,工厂 内 部 
重要 的 生产 管理 数据 、 生 产 操作 数据 以 及 工厂 外 部 数据 (如 用 户 数 据 ) 等 各 类 数据 的 安全 。 
说 明 如 图 12-11 所 示 。 
























































图 12-11 工业 大 数据 安全 架构 


目前 ,工业 领域 安全 防护 采用 分 层 分 域 的 隔离 和 边界 防护 思路 。 工 厂 内 网 与 工厂 外 网 
之 间 通 常 部 署 隔离 和 边界 防护 措施 ,采用 防火 墙 `VPN 访问 控制 等 边界 防护 措施 保障 工厂 
内 网 安全 。 从 工厂 内 网 来 看 ,可 进一步 分 为 企业 管理 层 和 生产 控制 层 。 企 业 管理 层 主 要 包 
括 企业 管理 相关 的 ERP、CRM 等 系统 ,与 传统 IT 系统 类 似 ,主要 关注 信息 安全 的 内 容 , 采 
用 权限 管理 ,访问 控制 等 传统 信息 系统 安全 防护 措施 ,与 生产 控制 层 之 间 较 多 地 采用 工业 防 
火 墙 .网 闻 等 隔离 设备 ,一 般 是 通过 白 名 单方 式 对 工业 协议 如 OPC 等 进行 过 滤 , 防 止 来 自 互 
联网 的 威胁 渗透 到 生产 过 程 。 

在 应 用 安全 方面 .网 络 化 协同 、 服 务 化 延伸 、 个 性 化 定制 等 新 模式 新 业态 的 出 现 对 传统 
公共 互联 网 的 安全 能 力 提 出 了 更 高 要 求 。 工 业 应 用 复杂 ,安全 需求 多 样 ,因此 对 网 络 安全 隔 
离 能 力 、 网 络 安全 保障 能 力 要 求 都 将 提高 。 并 且 将 根据 需要 针对 不 同业 务 的 安全 需求 提供 
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灵活 的 安全 服务 能 力 ,提供 统一 灵活 的 认证 ,授权 、 审 计 等 安全 服务 能 力 ,同时 支持 百 万 级 
VPN 隔离 及 用 户 量 增长 。 在 数据 安全 方面 ,工业 数据 由 少量 、 单 一 、 单 向 正在 向 大 量 、 多 维 、 
双向 转变 ,具体 表现 为 工业 互联 网 数据 体 量 大 、 种 类 多 、 结 构 复杂 ,并 在 IT 和 OT 层 、 工 厂 内 
外 双向 流动 共享 。 工 业 领域 业务 应 用 复杂 ,数据 种 类 和 保护 需求 多 样 ,数据 流动 方向 和 路 径 
复杂 ,重要 工业 数据 以 及 用 户 数据 保护 难度 增 大 。 需 要 采用 工业 数据 以 及 用 户 数 据 分 类 分 
级 保护 机 制 。 对 重要 工业 数据 以 及 用 户 数 据 进 行 分 类 分 级 ,并 采用 不 同 的 技术 进行 分 级 保 
护 ,通过 数据 标签 .签名 等 技术 实现 对 数据 流动 过 程 的 监控 审计 ,实现 工业 数据 全 生命 周期 
的 保护 。 


12.5 智能 化 协同 制造 体系 架构 


来 自 通信 、 网 络 、 软 件 、 自 动 控 制 等 领域 的 技术 进步 推进 了 智能 制造 在 微观 技术 与 产品 
上 的 发 展 与 应 用 ,但 是 由 于 传统 的 智能 制造 主要 关注 制造 的 自动 化 、 企 业内 不 同业 务 系 统 的 
集成 .生产线 的 柔性 与 工厂 制造 业务 的 敏捷 性 以 及 紧 耦 合 企业 集团 内 的 协同 ,其 协同 机 制 在 
互联 网 环境 下 无 法 适应 变化 的 企业 联盟 关系 。 工 业 互 联网 环境 下 协同 制造 更 多 表现 为 松 耦 
合 特征 ,因此 自 组 织 去 中 心 化 的 企业 间 的 制造 服务 趋 于 动态 按 需 服务 协同 机 制 , 基 于 智能 化 
协同 制造 (ICM) 体 系 结构 也 就 出 现 了 。ICM 与 传统 的 智能 制造 的 区 别 对 应 如 表 12-1 所 示 。 


表 12-1 智能 制造 概念 及 其 特征 比较 





























名 称 含义 主要 特征 典型 应 用 | 耦合 性 | 动态 配置 
计算 机 /现代 集 | mw | 企业 应 用 ,企业 | 和 人 
CIMS 成 制造 系统 不 同系 统 之 间 的 集成 与 一 体 化 联盟 紧 耦 合 | 弱 
MAS 多 智能 体系 统 ”| 系统 或 应 用 内 部 企业 应 用 紧 精 合 | 级 
企业 应 用 , 企 
AM 敏捷 制造 企业 间 协作 与 集成 a 企业 | 紧 看 合 | 弱 
- 生产 设备 单元 之 间 的 集成 与 | 生产线, 车间 , 工 | ， 
FM 柔性 制造 二 三 等 企业 应 用 。 | 紧 碍 合 | 樟 
Cloud- 企业 应 用 , 企 
0 | 云 制造 应 用 服务 的 租用 化 与 集中 化 。 | 企业 应 用 ' 企业 | 如 扫 全 | 能 
Manufacturing 联盟 
介 应 , 企 
CPS 信息 物理 系统 | 产业 链 的 横向 与 纵向 集成 sp 企业 | 松 而 合 | 较 强 
以 个 性 化 客户 需求 为 导向 ,以 | 。，， 
虚拟 化 资源 平台 为 基础 ,制造 | 全 制造 服务 生命 
ICM 智能 化 协同 制造 | 最 务 化 为 转型 . 殊 合 产业 链 上 | 周期 的 自 组 织 和 | 松 相合 | 强 
4 ,整合 
下 游 高 效 协作 .高度 协 同 制造 “| 动态 配置 

















12.5.1 智能 化 协同 制造 发 展 需 求 


当今 企业 已 经 不 再 满足 于 规模 的 扩大 ,而 越 来 越 将 其 主要 精力 放 在 关注 企业 核心 能 力 
建设 和 核心 竞争 力 的 提升 上 。 在 工业 互联 网 背景 下 ,制造 企业 正在 经 历 新 一 轮 的 大 规模 重 
组 和 优化 ,与 过 去 企业 内 部 组 织 优化 方式 最 大 的 区 别 是 ,新 一 轮 重组 和 优化 是 在 整个 产业 链 
上 展开 的 、 面 向 全 社会 参与 的 新 型 协同 生态 系统 (Collaborating Ecosystem)。 智 能 化 协同 
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制造 发 展 需求 可 以 从 工业 和 互联 网 两 个 视角 分 析 , 如 图 12-12 所 示 为 智能 化 协同 制造 需求 
框架 。 





生产 系统 
图 12-12 智能 化 协同 制造 需求 框架 


从 工业 视角 看 ,智能 化 协同 制造 主要 表现 为 从 生产 系统 到 商业 系统 的 智能 化 ,由 内 及 
外 ,生产 系统 自身 通过 采用 信息 通信 技术 ,实现 机 器 之 间 、 机 器 与 系统 .企业 上 下 游 之 间 实 时 
连接 与 智能 交互 ,并 带动 商业 活动 优化 。 其 业务 需求 包括 面向 工业 体系 各 个 层级 的 优化 ,如 
泛 在 感知 .实时 监测 、 精 准 控制 、 数 据 集成 .运营 优化 .供应 链 协同 、 需 求 匹配 、 服 务 增值 等 业 

从 互联 网 视角 看 ,智能 化 协同 制造 主要 表现 为 商业 系统 变革 牵引 生产 系统 的 智能 化 ,由 
外 及 内 ,从 营销 ,服务 .设计 环节 的 互联 网 新 模式 新 业态 带动 生产 组 织 和 制造 模式 的 智能 化 
协同 生态 系统 变革 ,其 核心 思想 是 以 客户 需求 为 导向 的 业务 模式 ,其 业务 需求 包括 基于 互联 
网 平台 实现 的 精准 营销 个 性 定制 ,智能 服务 、 众 包 众 创 、 协 同 设 计 、 协 同 制造 .柔性 制造 等 。 


12.5.2 智能 化 协同 制造 总 体 架构 


工业 制造 在 网 络 互联 数据 智 能 、 安 全 保障 等 方面 将 进行 快速 的 迭代 演进 , 云 计 算 和 大 
数据 技术 逐步 引入 ,扁平 化 的 软 硬 件 部 署 架 构成 为 重要 发 展 趋势 ,从 而 引发 工业 系统 各 层级 
网 络 、 数 据 和 安全 的 深刻 变化 。 结 合 智能 制造 、 互 联网、 数据 、 安 全 等 发 展 趋势 ,智能 化 协同 
制造 将 随 之 产生 。 智 能 化 协同 制造 目标 架构 如 图 12-13 所 示 。 

智能 化 协同 制造 目标 实现 架构 主要 呈现 4 个 方面 的 关键 特征 。 

1. 体系 架构 方面 

实现 层级 打通 、 内 外 融合 ,传统 工业 系统 多 层 结构 逐渐 演变 为 应 用 层 、 数 据 分 析 层 和 智 
能 工厂 资源 层 三 层 , 整 体 架构 呈现 扁平 化 发 展 趋势 。 应 用 层 按照 智能 化 协同 制造 总 体 架构 
生命 周期 进行 ,包括 产品 前 期 市 场 研发 ,产品 规划 设计 、 工 艺 设计 、 生 产 计划 、 协 同 生产 ,协同 
销售 和 智能 服务 ,这 些 业务 的 开展 都 已 经 突破 传统 意义 的 企业 经 营 模 式 和 发 展 理念 ,依据 互 
联网 虚拟 生产 线 , 这 些 制 造 资源 能 够 按照 流程 任务 完成 和 提交 工作 任务 , 像 传 统 的 企业 协作 
模式 一 样 ,这 样 能 够 极 大 地 发 挥 企业 资源 优势 ,最 大 限度 地 创造 企业 价值 ,也 能 够 调动 起 员 
工 的 积极 性 、 主 动 性 和 创造 性 。 能 够 使 跨 地 区 、 跨 领域 的 员工 为 了 实现 同一 目标 ,在 分 工 明 
确 的 基础 上 彼此 协作 。 而 这 种 网 络 制造 资源 是 计算 机 系统 根据 工作 任务 的 要 求 ,通过 数据 
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挖掘 优化 选择 和 识别 出 来 的 ,然后 通过 流程 分 配 和 调度 工作 任务 。 数 据 分 析 层 完成 工业 大 
数据 的 数据 集成 ,数据 转化 .数据 预 处理 数据 挖掘 和 分 布 式 数据 存储 等 ,提供 应 用 层 和 智能 
工厂 的 协同 工作 。 智 能 工厂 (IMD) 是 现代 化 制造 企业 的 实体 企业 ,比如 海尔 .格力 等 现代 化 
制造 车 间 , 包 括 智能 化 制造 企业 具备 的 工业 设备 ,控制 系统 以 及 ERP、MES、PLM 等 信息 系 
统 ,还 有 机 器 人 等 。 
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图 12-13 智能 化 协同 制造 架构 图 


2， 网 络 互联 方面 

智能 协同 制造 各 种 智能 装备 实现 充分 网 络 化 ,无 线 成 为 有 线 的 重要 补充 ,新 型 网 关 推动 
异 构 互 联 和 协议 转换 ,工厂 与 产品 、 外 部 信息 系统 和 用 户 充 分 互联 。 智 能 工厂 建立 私有 云 、 
协同 服务 建立 公有 云 ,充分 资源 共享 ,互联 互通 ,形成 全 面 协 同 工 作 。 

3. 大 数据 分 析 方面 

工业 云 平台 成 为 关键 核心 .实现 工厂 内 外 部 数据 的 充分 汇聚 ,支撑 数据 的 存储 ,挖掘 和 
分 析 , 有 效 支 撑 工 业 信 息 控制 系统 和 各 种 创新 应 用 ; 涉及 数据 全 面 的 采集 与 流动 .工业 数据 
云 平台 建设 ,以 及 多 层次 数据 处 理 和 分 析 能 力 构 建 ,在 此 基础 上 支撑 各 种 智能 应 用 ,同时 应 
注意 构建 数据 反馈 闭环 ,以 实现 信息 系统 之 间 以 及 信息 系统 与 物理 系统 之 间 的 相互 作用 。 
这 些 数据 主要 包括 工厂 管理 软件 之 间 的 信息 交互 ,如 研发 设计 类 软件 (CAD.CAE .CAPP、 
CAM 等 ) .生产 管理 软件 .ERP、 客 户 管理 软件 CRM、 供 应 链 管理 软件 SCM 等 ,实现 这 些 管 
理 软件 之 间 的 信息 交互 与 集成 ; 还 有 智能 设备 全 面 数据 感知 采集 ,包括 采集 机 器 .在 制品 等 
运行 状态 信息 .采集 生产 环境 信息 .工业 控制 系统 信息 .机 器 人 操作 信息 。 这 些 数据 利用 云 
和 大 数据 技术 ,推动 智能 工厂 内 部 数据 集成 分 析 , 同 时 构建 决策 反馈 闭环 ,实现 对 工业 生产 
的 控制 以 及 各 种 智能 管理 决策 应 用 。 通 过 工厂 外 部 的 工业 云 平台 ,汇聚 产品 数据 ,用户 数 
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据 、 环 境 数据 ,协同 企业 数据 等 ,并 利用 大 数据 技术 ,实现 海量 .复杂 数据 的 综合 存储 、 分 析 
和 处 理 。 通 过 构建 综合 反馈 闭环 和 评价 体系 ,在 工业 云 平 台大 数据 集成 与 分 析 基 础 上 ， 
建立 从 工业 云 平台 到 企业 级 信息 系统 的 综合 性 分 析 反 馈 闭 环 和 客户 评价 ,提升 工厂 内 外 
的 联动 。 

4. 安全 保障 方面 

各 种 安全 机 制 与 工业 互联 网 各 个 层次 深度 融合 ,实现 纵深 防御 ,立体 防护 ,通过 多 种 安 
全 措施 保障 网 络 互联 和 数据 集成 安全 。 工 业 互 联网 目标 架构 的 实现 将 是 一 个 长 期 过 程 , 需 
要 网 络 .数据 ,安全 等 方面 逐步 协同 推进 。 


12.5.3 智能 化 协同 制造 设计 思想 


智能 化 协同 制造 采用 了 面向 服务 企业 、 以 服务 互联 创造 价值 的 务 联网 (Internet of 
Service) 以 及 企业 服务 总 线 的 设计 思想 。 

1. 面向 服务 企业 定义 

智能 化 协同 制造 是 为 了 满足 客户 个 性 化 定制 的 需求 ,企业 业务 流程 和 业务 模式 能 够 随 
需 应 变 (On Demand Business) 。 随 需 应 变 可 以 理解 为 企业 能 够 识别 市 场 环 境 的 变化 ,通过 
大 数据 分 析 预 测 能 够 预先 洞察 先 机 , 先 于 其 他 竞争 对 手 做 出 相应 的 调整 和 反应 ,保持 客户 、 
价值 网 伙伴 和 员工 需求 的 同步 。 随 需 应 变 的 业务 能 够 带 来 业务 整体 柔性 化 、 智 能 化 和 协同 
化 。 智 能 化 协同 制造 的 核心 技术 是 业务 组 件 化 和 面向 服务 。 

业务 组 件 是 指 业 务 组 件 给 其 他 业务 组 件 ( 内 部 或 外 部 ) 提 供 的 产品 或 服务 。 业 务 服 务 是 
业务 组 件 的 一 个 主要 的 特性 。 业 务 组 件 包括 以 下 内 容 。 

(1) 业务 目标 : 业务 组 件 存 在 的 理由 ,定义 业务 组 件 提供 的 基本 价值 。 

(2) 业务 活动 : 业务 组 件 内 部 执行 活动 的 集合 。 

(3) 业务 资源 : 业务 组 件 运 作 所 需要 的 人 、 知 识 , 任 何 有 形 或 无 形 资产 。 

(4) 管理 机 制 : 业务 组 件 自治 运作 所 需要 的 管理 机 制 ,包括 对 动机 、 性 能 和 责任 的 评价 
指标 和 评价 方法 。 

(5) 业务 服务 : 业务 组 件 提供 和 消费 的 所 有 服务 。 

要 实现 随 需 应 变 的 业务 仅 将 业务 组 件 化 是 不 够 的 ,企业 的 分 解 ( 或 者 称 为 业务 的 组 件 
化 ) 是 将 企业 分 解 为 一 组 更 小 的 和 自治 的 业务 组 件 , 这 些 业务 组 件 在 业务 生态 系统 环境 中 与 
其 他 企业 的 类 似 组 件 进行 交互 ,需要 在 整个 价值 网 上 实现 业务 组 件 间 的 无 颖 交互 和 紧密 集 
成 。 同 样 ,在 整合 价值 网 上 实现 业务 柔性 化 要 求 组 件 网 络 必须 具有 柔性, 即 企业 可 以 “内 化 
(In-Sourcing) ”外 包 得 到 的 组 件 , 或 者 “外 包 (Out-Sourcing) ”其 内 部 的 组 件 。 

面向 服务 是 实现 业务 组 件 间 无 颖 集成 的 核心 :业务 组 件 之 间 的 交互 体现 了 面向 服务 的 
思想 , 即 每 一 个 业务 组 件 向 其 他 业务 组 件 提供 一 项 或 多 项 业务 服务 。 使 用 业务 组 件 服 务 的 
组 件 无 须知 道 提供 服务 的 业务 组 件 是 如 何 产生 这 个 服务 的 。 业 务 组 件 间 的 服务 交互 通过 
SLA( 服 务 级 别 协议 ) 来 定义 和 约 东 ,在 SLA 中 定义 了 对 交付 服务 的 评价 标准 ,用 户 根据 
SLA 中 定义 了 的 业务 层 协 议 对 服务 进行 管理 。 

在 业务 组 件 化 和 业务 服务 化 的 基础 上 ;出现 了 所 谓 的 “面向 服务 的 企业 (Service 
Oriented Enterprise,SOE)” 的 概念 。 面 向 服务 的 企业 是 一 个 通过 SOA 实施 和 对 外 发 布 其 
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业务 流程 的 企业 。 通 过 将 企业 的 业务 单元 组 织 成 为 提供 各 种 服务 的 业务 组 件 , 在 整个 价值 
网 络 中 ,以 服务 提供 和 服务 消费 的 方式 实现 企业 内 部 不 同业 务 单元 (服务 单元 ) 和 不 同 企业 
之 间 业 务 单元 (服务 单元 ) 的 业务 协作 ,并 按照 事先 约定 的 服务 层 协议 对 服务 质量 进行 管理 ， 
快速 柔性 地 响应 市 场 需求 的 变化 ,实现 企业 和 整个 价值 网 络 的 利益 最 大 化 。 

2. 业务 组 件 建 模 

业务 组 件 建 模 (CBM) 是 用 来 建立 结构 化 业务 组 件 模 型 的 方法 , 它 将 企业 的 业务 组 件 组 
织 起 来 ,在 较 高 抽象 层次 上 描述 企业 的 业务 逻辑 ,为 解决 业务 低 效 问 题 和 满足 新 的 战略 目标 
而 实施 的 业务 转型 提供 了 基础 。 业 务 组 件 模型 可 以 为 企业 提供 业务 战略 和 业务 运作 所 需要 
的 明确 的 重点 领域 和 核心 能 力 , 可 用 来 识别 业务 改进 和 创新 的 机 会 。 通 过 重组 企业 当前 的 
业务 活动 ,形成 一 组 可 管理 的 、 模 块 化 的 、 可 重用 的 组 件 ,最 终 提高 企业 运作 的 柔性 。 

CIMS 的 分 析 与 设计 涉及 各 类 模型 的 建立 ,成 熟 的 建 模 方法 被 广泛 用 于 CIMS 的 实践 
中 。ARIS( Architecture of Integrated Information System) 是 德国 Saarbriick 大 学 的 A. 
W. Scheer 教授 于 1992 年 提出 的 一 种 基于 过 程 的 模型 结构 。GRAI(CGraph with Results 
and Activities Interrelated) 方 法 由 法 国 Bordeaux 第 一 大 学 提出 ,专门 为 生产 系统 制定 决策 
而 开发 的 。20 世纪 80 年 代 初 .美国 空军 ICAM(Jntegrated Computer Aided Manufacturing ) 项 
目 在 SADT(Structured Analysis and Design Technology) 法 的 基础 上 发 展 了 一 套 系统 分 析 
与 设计 方法 , 称 之 为 IDEF。 它 主要 由 3 种 模型 组 成 : 功能 模型 (IDEF0), 信息 模型 
(IDEF1X) 和 动态 模型 (IDEF2)。 基 于 BPMN 的 建 模 方法 借鉴 了 UML 活动 图 .UML 
EDOC 的 业务 流程 图 .IDEF 等 的 技术 经 验 , 兼 顾 了 复杂 的 流程 语义 和 角色 交互 ,为 描述 和 
研究 复杂 系统 提供 了 手段 。BPMN 由 一 组 图 形 元 素 构成 ,便于 开发 一 个 简单 的 ,为 大 多 数 
业务 分 析 人 员 熟 悉 的 流程 图 。 

业务 组 件 建 模 是 面向 服务 体系 架构 设计 和 业务 流程 管理 的 基础 。 图 12-14 给 出 了 业务 
组 件 建 模 、 业 务 流程 管理 ,企业 体系 架构 、 面 向 服务 的 建 模 体系 结构 、 面 向 服务 的 体系 架构 
(SOA) 运 作 、 业 务 流程 性 能 管理 (BPPM) 之 间 的 关系 。 

3， 务 联网 概念 

欧盟 第 七 框架 计划 中 提出 的 “未 来 互联 网 (Future Internet) "框架 中 ,指出 未 来 的 互联 
网 络 架构 由 4 个 网 络 构成 。 人 际 网 用 于 支持 人 -人 之 间 的 交流 ,如 Facebook 网 站 、 博 客 、 微 
信 ; 物 联 网 用 于 支持 对 物理 世界 运行 状态 和 信息 感知 ; 知识 和 内 容 网 支持 知识 的 共享 ; 务 
联网 (Internet of Service) 支 持 服务 提供 、 服 务 组 合 和 服务 应 用 。 欧 盟 研 究 人 员 认 为 务 联网 
是 关于 未 来 互联 网 的 一 种 观点 , 指 的 是 所 有 需要 使 用 软件 应 用 的 事务 或 事物 都 可 以 互联 网 
上 的 服务 形式 存在 ,如 软件 、 软 件 开发 工具 、 软 件 运行 平台 等 。 

图 12-15 给 出 了 一 个 务 联网 概念 示意 图 。 务 联网 以 互联 网 和 物 联 网 作为 手段 ,在 现实 
的 服务 应 用 空间 和 数字 化 的 虚拟 空间 之 间 建 立 联系 ,形成 服务 生态 环境 。 与 之 相 比 ， 
Internet 向 用 户 单 向 发 布 信息 , 物 联 网 从 现实 世界 收集 信息 , 云 计算 聚集 资源 并 向 顾客 单 向 
发 布 (计算 的 基础 设施 ,通过 特定 的 资源 整合 方式 向 客户 提供 各 类 网 络 计算 资源 ); 它们 可 
以 被 视 为 开 环 网 络 。 务 联网 则 通过 * 大 规模 定制 ?的 方式 为 客户 构建 闭环 网 络 : 感知 顾客 大 
批量 个 性 化 服务 需求 ,进而 建立 每 个 需求 与 可 用 服务 之 间 的 映射 ,面向 服务 功能 /性 能 /价值 
等 目标 进行 自 适 应 的 服务 设计 、 选 取 与 组 合 (计算 资源 、 服 务 资源 、 社 会 资源 ), 自 适应 地 形成 
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图 12-14 业务 组 件 建 模 与 EA、SOA、BPM 的 关系 
务 联网 的 子 网 络 的 集成 ,向 每 一 个 客户 提供 集成 化 服务 ,并 根据 应 用 情境 的 变化 进行 服务 的 


演化 ; 服务 子 网 络 中 的 各 个 服务 节点 在 物 联网 和 互联 网 的 支持 下 进行 协同 ,共同 完成 服务 
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图 12-15 务 联网 概念 示意 图 
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4. 协同 制造 服务 总 线 
为 了 实现 智能 化 协同 制造 内 若干 个 智能 工厂 之 间 的 制造 资源 的 即时 装配 、 松 度 耦 合 、 
性 可 重 构 、 自 动 集成 .协同 调用 ,需要 构造 协同 制造 总 线 (Collaborative Manufacturing Bus 
CMB)。CMB 是 智能 工厂 所 有 制造 资源 、 制 造 服务 应 用 之 间 交 换 数据 以 及 智能 工厂 之 间 制 
造 服务 应 用 节点 之 间 交 换 数据 、 智 能 工程 与 协作 应 用 层 的 交换 数据 。CMB 是 企业 服务 总 线 
(ESB) 的 服务 集成 ,也 是 一 种 资源 协同 调用 的 机 制 。 可 以 想象 全 球 企业 是 不 可 能 实现 所 有 
的 生产 工艺 ,生产 过 程 的 完全 一 致 的 ,但 是 可 以 要 求 企业 都 遵守 微服 务 架构 、 基 于 SOA 的 
注册 ,发 布 与 使 用 ,以 及 服务 基于 容器 的 运行 。 如 图 12-16 所 示 为 协同 制造 服务 总 线 。 
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图 12-16 协同 制造 服务 总 线 


考虑 到 SOA 体系 独立 于 硬件 ,操作 系统 和 编程 语言 ,CMB 原则 上 基于 SOA 设计 原则 ， 
以 Web Service 方式 来 实现 。 各 智能 工厂 的 CMB 通过 通用 的 SOA 机 制 中 WSDL 描述 ， 
UDDI 查找 和 发 布 .SOAP 来 调用 。 

SOA 提供 了 路 平 台 跨 语言 松 耦合 的 便利 , 当 制 造 服务 应 用 数量 很 少时 ,直接 的 点 到 点 
的 Web Service 服务 接口 是 最 快捷 的 集成 方法 。 随 着 IME 内 服务 应 用 的 增多 ,单个 服务 应 
用 的 复杂 性 增强 ,功能 增 大 ,基本 的 SOA 集成 思维 遇 到 挑战 。 在 制造 服务 应 用 之 间 , 即 使 
基于 SOA 的 Web 服务 ,如 果 采 用 点 对 点 的 应 用 集成 结构 ,尽管 方法 很 简单 ,但 存在 着 严重 
的 隐患 。 用 于 连接 的 Web 服务 数目 将 快速 增长 (如 果 考 虑 方向 性 ,总 数 为 naX (2z 一 1), 其 中 
nn 为 应 用 系统 的 个 数 )。 不 同 应 用 系统 之 间 由 于 缺乏 自动 提交 请 求 的 机 制 ,必须 在 相关 的 连 
接 Web 服务 内 部 固化 请 求 的 提交 功能 ,应 用 系统 之 间 存 在 着 高 度 紧 耦合 ,任何 一 个 系统 的 
升级 或 改动 都 将 影响 到 其 他 与 之 相关 的 应 用 系统 的 修改 。 同 时 , 当 一 个 新 的 应 用 系统 需要 
纳入 整个 应 用 集成 体系 时 工作 变 得 非常 复杂 。 我 们 可 以 利用 Application Hub 来 构造 适合 
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DO 
于 智能 工厂 内 部 应 用 协同 或 者 紧 夸 合 智能 工厂 之 间 应 用 系统 的 企业 服务 总 线 (Enterprise 
Service Bus,ESB) 。 智 能 工厂 内 部 ESB 通过 服务 交换 点 (Service Interactive Point,SIP) 隔 
离 单个 IME 内 部 的 复杂 Web Service, 形 成 一 个 抽象 的 Web 服务 集合 。Web 服务 端点 、 
Web Sphere MQ 队列 或 Java 的 远程 方法 调用 (Remote Method Invocation, RMI) 远程 对 象 
的 代理 均 可 以 提供 SIP 的 实践 方法 。 实 现 协议 转换 和 消息 透明 路 由 与 定位 的 中 介 弥 补 服务 
请 求 方 与 服务 提供 方 之 间 协 议 最 初 的 不 一 致 。 参 与 方 (需求 与 提供 者 ) 均 不 需 关 心 对 方 的 位 
置 或 标识 ,本 地 的 改变 也 自然 不 影响 远程 的 参与 方 的 活动 ,由 此 实现 Web Service 的 虚拟 化 
效果 。 

消息 增强 则 弥补 转换 后 的 协议 和 被 调用 服务 之 间 的 参数 差异 ,强化 有 效 负 载 以 确保 调 
用 规范 化 。 转 换 则 将 消息 从 需求 者 的 模式 变 为 服务 提供 者 的 样式 (如 SOAP/HTTP、JMS 
和 MQ Integrator 等 ) ,期 间 会 经 过 拆 封 \ 再 封装 .解密 .再 加 密 。 相 关 聚 合 则 从 接收 到 的 消 
息 或 者 事件 出 发 ,根据 需要 派生 或 者 触发 必要 的 服务 ,以 完成 需求 方 的 服务 请 求 。 我 们 可 以 
通过 设立 一 系列 规则 来 完成 模式 标识 和 响应 模式 发 现 的 行为 ,然后 将 得 到 的 结果 消息 重组 
为 源 消 息 所 需要 的 服务 结果 。 

(1) 通过 集成 协同 制造 服务 关键 智能 资源 服务 ,并 对 这 些 服务 进行 有 效 的 管理 。 

协同 服务 提供 的 关键 业务 能 力 可 通过 “服务 化 ”进行 规约 ,应 用 系统 通过 这 些 服务 接口 
对 外 提供 业务 服务 ,需要 通过 集成 对 这 些 服 务 进行 有 效 管理 。 

QO@ 服务 接口 应 在 集成 规划 的 基础 上 相对 稳定 

@ 服务 需要 资产 化 ,得 到 统一 的 注册 、 管 理 和 维护 ; 

@ 服务 的 生命 周期 在 “服务 注册 中 心 ” 得 到 统一 的 管理 。 

(2) 通过 集成 实现 应 用 系统 之 间 业 务 互通 ,使 得 应 用 系统 之 间 业 务 易于 协同 。 在 “服务 
化 ?的 基础 上 ,打破 应 用 系统 之 间 的 壁垒 ,使 得 应 用 系统 之 间 业 务 流 程 实现 互通 ,应 用 系统 之 
间 的 协同 以 “服务 调用 ”的 形式 进行 ,需要 通过 集成 有 效 管理 应 用 系统 之 间 的 服务 调用 交互 ， 
应 用 系统 之 间 不 应 发 生 直接 调用 耦合 ,而 是 通过 “协同 制造 服务 总 线 ? 进 行 , 使 得 服务 交互 双 
方 能 较 快 适应 对 方 的 变化 。 

(3) 通过 集成 规划 新 的 协同 应 用 ,提升 现 有 协同 服务 能 力 和 水 平 。 

在 集成 的 基础 上 ,通盘 考虑 ,分 析 现 有 和 未 来 业务 需求 ,规划 新 的 集成 服务 ,提升 业务 
水 平 。 

协同 制造 服务 总 线 内 还 需要 建立 的 基本 机 制 包括 : 元 数据 管理 : 在 总 线 有 效 域内 对 服 
务 的 注册 ,命名 及 寻 址 进行 管理 。 服 务 注册 : 从 元 数据 中 获取 SIP 描述 、 功 能 ,与 其 他 SIP 
的 交互 方式 .QoSCQnuality of Service) 要求. 语义 注释 等 。 

服务 质量 管理 包括 性 能 、 服 务 的 可 交付 以 及 如 何 对 请 求 进行 路 由 以 实现 负载 均衡 。 
QoS 策略 可 以 封装 在 服务 内 ,由 需求 方 指定 或 者 由 提供 方 设置 ,也 可 以 由 ESB 实现 。 在 服 
务 请 求 消息 中 ,可 以 通过 QoS 参数 来 设置 策略 。 事 件 监 视 观 测 消息 从 中 介 转 换 协 议 开始 到 
服务 交付 完成 是 否 发 生 异 常 ,并 记录 日 志 。 

服务 管理 针对 如 JCA、Web 服务 、Messaging、Adapter 之 间 的 集成 方式 ,对 遗留 系统 适 
配器 、 服 务 编排 和 映射 ,协议 转换 方法 、 数 据 变 换 方法 ,企业 应 用 集成 中 间 件 进行 统一 索引 和 
定义 。 同 时 管理 服务 交互 所 需要 的 接口 定义 、 消 息 模型 ,服务 目录 和 发 现 等 。 

服务 安全 定义 总 线 有 效 域内 的 认证 和 授权 、 服 务 交 互 的 自动 审核 .数据 安全 标准 的 支 
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持 、 传 输 安 全 标准 的 支持 。UDDICUniversal Description,Discovery and Integration) 是 基于 
Web 的 Web Service 注册 中 心 的 实现 标准 规范 ,或 者 说 是 Web Service 的 目录 服务 ,用 于 
Web Service 注册 和 发 现 。 根据 UDDI 标准 ,注册 中 心 可 以 部 署 为 公共 的 、 受 保护 的 和 私 
有 的 。 


12.5.4 智能 化 协同 制造 应 用 场景 


X 集 团 化 家 电 智 能 制造 大 型 企业 ,要 实现 其 全 国 各 分 公司 协同 制造 ,成 员 单位 包含 总 装 
厂 、 设 计 研 究 所 、 配 套 企业 ,主要 集中 于 武汉 、 上 海 . 青 岛 .重庆 、 大 连 、 昆 明 等 城市 。 其 中 : 

(1) 设计 机 构 主 要 分 布 在 北京 .武汉 和 大 连 。 

(2) 总 装 厂 主 要 分 布 在 青岛 .大 连 、 天 津 山 海关、 武汉 。 

(3) 配套 厂 主要 分 布 在 太原 重庆、 昆明、 南京 等 地 。 

(4) 预 研 与 咨询 服务 机 构 主要 在 北京 。 

由 XX 集团 成 员 单 位 地 域 分 布 特点 ,在 产品 的 全 制造 过 程 中 ,需要 异地 协同 并 实现 型 
号 研制 过 程 的 全 过 程 数据 交换 与 管理 。X 集 团 针 对 数字 化 智能 制造 提出 了 如 下 总 体 
要 求 。 

(1) 预 研 服 务 需要 在 北京 咨询 中 心 和 各 企业 的 信息 中 心 之 间 协 同 。 各 企业 的 信息 中 心 
在 自己 研究 过 程 中 积累 的 数据 可 以 有 条 件 分 享 给 集团 内 其 他 企业 。 

(2) 异地 设计 师 可 以 协同 设计 并 进行 文档 修改 并 保持 版 本 同步 。 

(3) 不 同 的 分 段 可 以 分 布 式 生 产 , 最 后 实现 总 装 。 

(4) 车 间 实 现 刀 具 、 机 床 等 全 覆盖 管理 并 实现 与 企业 内 生产 管理 的 集成 。 

上 述 目标 均 需 要 建立 在 X 集 团 的 大 型 单 件 式 产品 设计 与 制造 的 业务 特点 上 。 


12.6 智能 化 协同 制造 服务 生命 周期 过 程 


工厂 或 者 说 企业 个 体 是 构造 社会 化 智能 制造 体系 的 基础 组 织 。 我 们 将 实现 全 在 智能 协 
同 制造 服务 体系 内 ,智能 工厂 之 间 基 于 互联 网 构成 的 去 中 心 化 企业 网 络 ,企业 之 间 的 联盟 关 
系 会 随 着 制造 任务 的 变化 而 变化 。 当 企业 内 应 用 都 基于 CMB 构造 服务 总 线 , 且 通过 UDDI 
区 域 中 心 发 布 可 分 享 的 微 制造 服务 组 件 时 ,智能 工厂 之 间 通 过 “资源 发 现 -安全 访问 -资源 选 
择 -动态 配置- 共同 进化 ” 即 可 构成 完整 的 协同 制造 链 。 

制造 服务 周期 的 智能 工厂 与 传统 的 “工厂 智能 化 ?或 “制造 信息 化 "概念 不 同 , 企 业 的 智 
能 化 是 贯穿 于 全 制造 服务 全 生命 周期 。 传 统 的 “工厂 智能 化 ?或 “制造 信息 化 "聚焦 于 设计 过 
程 、 制 造 计划 管理 、 销 售 管理 ,物资 管理 ,供应 链 管 理 、 人 力 资源 管理 等 ,通常 表现 为 CAD、 
CAM CAE .CAPP、ERP、SCM、MRP、HR.、Portal 等 系统 以 及 系统 间 的 整合 。 智 能 工厂 的 
特点 如 下 。 

(1) 将 智能 化 前 置 到 市 场 研发 。 市 场 研发 通常 在 产品 设计 的 前 端 。 当 企业 开展 创新 或 
者 产品 升级 时 ,其 如 何 升级 的 决策 ,来 源 于 市 场 研发 以 及 伴随 的 原型 开发 阶段 。 这 一 阶段 以 
大 数据 方式 进行 广泛 的 数据 收集 整理 和 筛选 .市 场 调研 .竞争 对 手 状况 分 析 、 结 合 产品 的 历 
史 数 据 分 析 、 前 沿 技术 等 进行 数据 挖掘 和 知识 利用 ,以 准确 预测 发 展 趋势 。 

(2) 将 智能 化 后 延 到 产品 交付 后 的 产品 和 运行、 维护、 客户 服务 和 状态 监控 的 智能 服务 
中 。 与 传统 的 产品 交付 即 制造 周期 的 完结 不 同 , 产 品 交付 后 用 户 使 用 过 程 中 的 状态 参数 的 
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大 小 构 : 雪 所 营 理 与 才 辆 于 扩 0 
收集 、 用 户 评 价 的 反馈 、 用 户 社区 运营 后 积累 的 信息 、 用 户 体验 的 反馈 、 售 后 服务 过 程 中 维修 
数据 的 积累 应 以 一 定 的 模型 反馈 到 产品 的 更 新 与 升级 状态 中 。 

(3) 智能 工厂 还 需要 使 得 客户 成 为 制造 环节 中 的 重要 元 素 , 而 不 仅仅 是 企业 内 部 的 管 
理 者 、 工 程 师 、 技 师 和 服务 人 员 。 客 户 有 明确 的 系统 入 口 来 主动 决定 个 性 化 产品 的 参数 和 属 
性 ,并 直接 以 特定 的 身份 参与 到 智能 工厂 整体 系统 的 运行 。 由 此 ,与 传统 的 制造 过 程 有 所 区 
别 , 我 们 定义 全 制造 服务 周期 如 下 。 

全 制造 服务 周期 (Total Manufacturing Service Lifecycle,TMSL) 指 包括 产品 从 创新 到 
运行 ,具体 指 由 企业 内 包括 市 场 研 发 ,创新 决策 .开发 与 设计 .工艺 与 制造 ,生产 计划 与 管理 、 
物流 与 供应 链 、 营 销 交付 运行 维护 .用户 服务 过 程 形 成 的 封闭 信息 环 路 牵引 的 全 部 制造 过 
程 的 集合 。 

智能 化 协同 制造 是 指 在 整个 互联 网 中 ,智能 工厂 间 ,或 者 智能 工厂 与 消费 者 之 间 发 生 的 
一 种 联合 机 制 。 该 机 制 实现 基于 点 到 点 . 自 组织 的 智能 制造 资源 目录 分 享 ` 同 步 ; 微 制造 服 
务 组 件 发 布 .搜索 、 调 用 。 基 于 制造 资源 和 微 制 造 服务 组 件 建立 在 全 网 动态 配置 的 虚拟 生产 
线 的 建 模 和 驱动 。 安 全 机 制 包 括 针 对 智能 制造 资源 服务 和 制造 服务 单元 组 件 节点 的 认证 与 
授权 机 制 . 访 问 控制 列表 数据 传输 SSL 与 TSL 数据 内 容 加 密 以 及 其 他 安全 防护 手段 。 还 
有 比如 企业 的 设计 工作 主要 依赖 于 CAD 平台 。 设 计 平 台 从 单机 到 网 络 ,然后 进化 到 基于 
云 服 务 器 和 虚拟 化 的 CAD SaaS 服务 。 基 于 SaaS 服务 的 云 设 计 机 制 主要 由 多 人 针对 同样 
一 个 任务 进行 异步 工作 ,以 确保 最 终 设 计 文 档 的 同步 。 与 此 不 同 ,协同 设计 服务 不 仅 包 括 上 
述 基 本 功能 ,更 重要 的 是 ,无 论 是 个 体 还 是 协作 企业 ,通过 自主 设计 任务 或 者 按 需 设计 任务 
的 不 断 微型 分 割 ,微型 设计 组 件 作 为 可 租 售 的 成 果 在 协同 设计 仓库 中 被 全 部 设计 需求 者 可 
见 , 即 协同 设计 成 果 的 商品 交换 活动 就 会 自然 发 生 。 传 统 的 工艺 管理 则 是 CAPP 系统 。 同 
样 目前 CAPP 多 是 网 络 版 本 ,运行 在 企业 内 部 。 少 量 CAPP 正 迁 移 到 云 CAPP SaaS 系统 
上 ,以 保证 工艺 过 程 文档 的 版 本 管理 和 一 致 性 。 企 业 可 以 租用 CAPP SaaS 以 降低 硬件 、 软 
件 和 平台 建设 投入 ,也 不 需 关 心 CAPP 升级 带 来 的 维护 问题 。 但 是 协同 工艺 不 仅 提供 上 述 
功能 ,还 可 以 就 某 个 零 部 件 加 工 的 工艺 数据 进行 智能 协同 制造 体系 内 的 询问 、 调 用。 传统 服 
务 最 初 只 是 限于 企业 内 部 设备 维修 维护 .操作 管理 。 扩 展 的 智能 服务 延伸 到 企业 产品 的 售 
后 运行 维护 跟踪 与 客户 服务 .产品 用 户 体验 管理 与 数据 分 析 。 同 时 提供 协作 各 地 的 技术 专 
家 人 力 资源 构成 面向 最 终 客户 的 智能 服务 ,距离 优先 选择 可 以 设 定 为 ,挑选 距离 客户 服务 请 
求 地 最 近 的 服务 伙伴 或 者 服务 专业 人 员 去 响应 ; 技术 可 靠 性 优先 选择 我 们 则 设 定 为 根据 智 
能 服务 应 用 之 间 的 数据 分 析 , 选 择 最 适合 .最 具有 经 验 解决 问题 的 技术 专家 去 提供 服务 
响应 。 


12.6.1 制造 资源 服务 集成 与 发 现 

1. 资源 服务 引擎 

制造 服务 注册 中 心 为 网 络 化 敏捷 制造 平台 提供 了 一 个 良好 的 制造 服务 发 布 ` 维 护 和 管 
理 环境 ,是 构建 协同 制造 链 的 基础 。 在 实现 对 制造 服务 进行 基于 语义 的 描述 以 及 匹配 时 ,都 
需要 这 样 一 个 稳定 和 可 靠 的 注册 中 心 作为 支撑 。 作 为 制造 服务 注册 中 心 的 关键 模块 之 一 ， 
制造 服务 匹配 引擎 则 是 整个 协同 制造 链 构建 支持 系统 的 核心 ,其 功能 主要 是 实现 协同 制造 
任务 与 制造 服务 注册 中 心中 制造 服务 的 匹配 计算 ,并 基于 用 户 定义 的 匹配 度 以 发 现 满足 要 
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求 的 制造 服务 ,本 书 提出 的 制造 服务 匹配 引擎 结构 图 如 图 12-17 所 示 。 
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图 12-17 制造 服务 匹配 引擎 结构 图 


1 图 12-17 可 知 ,制造 服务 匹配 引擎 主要 由 匹配 模型 构造 器 .匹配 引擎 以 及 OWL 推理 
机 组 成 。 制 造 服务 匹配 引擎 的 具体 工作 流程 如 下 。 

(1) 协同 制造 链 发 起 企业 首先 使 用 用 户 匹 配 定义 工具 设 定 协同 制造 任务 与 制造 服务 的 
匹配 度 ,不 同 匹 配 度 等 级 的 设 定 将 直接 影响 到 匹配 结果 的 精确 性 。 进 行 制造 服务 匹配 时 , 匹 
配 引擎 将 依据 用 户 设 定 的 匹配 度 进行 匹配 ,发 现 合 适 的 制造 服务 。 用 户 还 可 以 通过 用 户 匹 
配 定义 工具 设 定 特 殊 的 制造 服务 匹配 要 求 ,如 有 关 制 造 服务 质量 、 制 造 服务 提供 商 所 在 地 理 
位 置 等 协同 制造 任务 制造 能 力 特 征 所 无 法 反映 的 要 求 。 

(2) 匹配 模型 构造 器 从 协同 制造 任务 库 中 读 取 需要 进行 匹配 的 协同 制造 任务 OWL 描 
述 文档 ,并 结合 用 户 匹 配 定义 工具 定义 的 匹配 要 求 , 生 成 该 协同 制造 任务 的 语义 匹配 模型 。 
在 具体 生成 匹配 模型 的 过 程 中 ,匹配 模型 构造 器 还 需要 访问 匹配 规则 库 中 相关 匹配 规则 信 
息 。 由 于 本 文 所 建立 的 协同 制造 任务 语义 描述 模型 没有 包含 数值 类 型 数据 的 比较 关系 , 故 
本 文 预先 建立 了 很 多 匹配 规则 ,并 将 其 存储 于 匹配 规则 库 中 。 如 对 于 零件 尺寸 ,面向 协同 制 
造 任务 ,系统 建立 了 大 于 等 于 的 规则 , 即 只 要 制造 服务 的 尺寸 能 力 大 于 等 于 该 零件 的 轮廓 尺 
才 , 其 尺寸 能 力 可 视 为 满足 要 求 。 

(3) 匹配 引擎 从 制造 服务 库 中 读 人 制造 服务 OWL 描述 文档 ,并 通过 OWL 推理 机 将 制 
造 服务 OWL 描述 文档 与 网 络 协同 制造 本 体 绑 定 , 依 据 OWL 语义 逻辑 生成 制造 服务 推理 
模型 。 制 造 服务 推理 模型 是 基于 网 络 协 同 制造 本 体 , 包 含 各 种 概念 、 属 性 及 其 之 间 扩 展 关 系 
的 模型 。 

(4) 匹配 引擎 将 协同 制造 任务 的 匹配 模型 与 制造 服务 的 推理 模型 进行 匹配 度 计算 , 获 
得 满足 用 户 设 定 的 匹配 度 要 求 的 制造 服务 。 

2. 制造 资源 服务 匹配 数据 挖掘 

严格 意义 上 来 说 , 当 制 造 服务 的 制造 能 力 特征 与 协同 制造 任务 的 制造 能 力 需求 完全 一 
致 时 , 称 制 造 服务 在 能 力 上 完全 满足 协同 制造 任务 的 要 求 。 显 然 , 这 种 定义 过 于 严格 ,因为 
制造 服务 提供 商 与 协同 制造 链 发 起 企业 事先 不 可 能 就 制造 服务 与 协同 制造 任务 的 描述 达成 
一 致 。 这 种 严格 的 定义 势必 会 导致 制造 服务 发 现 与 匹配 的 失败 。 因 此 ,制造 服务 匹配 算法 
需要 适应 一 个 较为 宽松 的 “充分 相似 ”的 定义 ,需要 有 和 较 强 的 适应 性 ,也 就 是 说 ,这 种 匹配 算 
法 应 该 能 够 依据 协同 制造 链 发 起 企业 定义 的 匹配 度 进行 匹配 。 如 上 文 制造 服务 匹配 引擎 工 
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关闭 性 才 扑 下 汪 生肖 村 二 全 生 引 汪 荆 
作 流 程 所 述 ,协同 制造 链 发 起 企业 在 进行 制造 服务 匹配 之 前 应 该 首先 确定 其 需要 的 匹配 程 
度 , 并 将 其 提交 给 制造 服务 匹配 引擎 。 

制造 服务 匹配 度 在 一 定 程度 上 反映 了 制造 服务 发 现 与 匹配 结果 的 精确 度 。 协 同 制造 链 
发 起 企业 为 制造 服务 匹配 设 定 一 个 匹配 度 后 ,制造 服务 匹配 引擎 将 把 该 匹配 度 等 级 之 上 的 
制造 服务 全 部 搜索 出 来 ,如 用 户 设 定 匹 配 度 为 9, 则 匹配 引擎 进行 匹配 时 ,匹配 度 为 10、11、 
12 的 制造 服务 也 将 被 搜索 出 来 ,而 且 同 一 匹配 度 等 级 内 部 可 能 会 搜索 出 多 个 满足 要 求 的 制 
造 服 务 。 为 了 衡量 制造 服务 制造 能 力 特征 与 协同 制造 任务 制造 能 力 需求 之 间 的 密切 程度 ， 
对 于 上 述 匹 配 结果 ,通常 需要 进行 进一步 的 排序 。 为 此 ,本 文 引入 了 制造 服务 语义 相似 度 的 
概念 ,制造 服务 语义 相似 度 主要 用 于 描述 制造 服务 和 协同 制造 任务 在 制造 能 力 层次 上 的 请 
义 相似 度 , 从 而 为 制造 服务 匹配 结果 排序 提供 一 个 量化 的 标准 。 
1 第 3 童 论述 可 知 ,制造 服务 与 协同 制造 任务 均 使 用 网 络 协同 制造 本 体 中 定义 的 一 系 
列 概念 进行 描述 。 因 此 ,制造 服务 语义 相似 度 可 以 通过 计算 网 络 协同 制造 本 体 中 概念 间 的 
语义 相似 度 来 获得 。 本 文通 过 建立 函数 Semsimilarity(T,S) 来 计算 制造 服务 语义 相似 度 ， 
具体 见 下 式 : 














wiSemS(CF ,C8) + wsSemS(C3,C3) 十 osSemSCCY ,CY¥) 
we ein Fen € [0 
其 中 ,TS 分 别 表示 协同 制造 任务 与 制造 服务 ; SemS(C?,C8) 为 协同 制造 任务 与 制造 服务 
的 零件 类 别 概念 语义 相似 度 计算 函 数 ; SemS(C3 .Cs ) 为 协同 制造 任务 与 制造 服务 的 形状 特 
征 概念 语义 相似 度 计算 函数 ; SemS(C¥ .Cs ) 为 协同 制造 任务 与 制造 服务 的 材料 特征 概念 
语义 相似 度 计 算 函 数 : woi'os ,osE[L0…1] 分 别 表 示 零 件 类 别 概念 ,形状 特征 概念 以 及 材料 
特征 概念 在 制造 服务 匹配 过 程 中 的 权重 。 由 于 在 制造 服务 匹配 过 程 中 ,加 工 类 型 必须 一 致 ， 
故 上 式 中 没有 包含 加 工 类 型 的 语义 相似 度 计算 。 
在 同一 本 体 中 ,两 个 概念 C; 和 C; 之 间 的 语义 相似 度 乏 1。 当 两 个 概念 相 一 致 的 时 候 ， 
即 具 有 Equivalent 关系 时 ,两 者 之 间 的 语义 相似 度 等 于 1; 而 当 两 个 概念 具有 Fail 关系 时 ， 
两 者 之 间 的 语义 相似 度 等 于 0; 对 于 介 于 上 面 两 种 情况 之 间 的 概念 , 即 概念 之 间 具 有 
Subconcept 或 Relative 关系 时 ,概念 之 间 的 语义 相似 度 需要 通过 计算 求 出 。 概 念 之 间 的 语 
义 相似 度 描述 见 下 式 : 
1 
Sem = 4 Similarity(C ,Ci )Subconcept(CC; ,Ci ), Relative(C;,C;) 
0 
目前 ,一 种 比较 直观 的 计算 概念 间 语 义 相似 度 的 方法 是 将 两 个 概念 分 别 映射 到 本 体 后 ， 
计算 本 体 图 上 两 个 概念 节点 间 的 最 短路 径 , 但 计算 图 上 节点 间 的 最 短 距离 复杂 度 较 高 .采用 
Dijkstra 算法 和 Floyd 算法 的 复杂 度 分 别 为 O(n*) 和 O(n?)。 本 文 计算 概念 之 间 的 相似 度 
主要 依据 Tversky 的 基本 特征 相似 性 模型 进行 ,该 模型 被 认为 是 迄今 为 止 最 有 效 的 计算 概 
念 之 间 相 似 度 的 模型 。 
Tversk 的 模型 基于 如 下 思想 : Tversky 将 评估 两 个 概念 相似 性 的 特征 分 为 共同 特征 和 
不 同 特征 两 种 。 共 同 特征 能 够 增强 两 个 概念 的 相似 性 ,而 不 同 特征 则 会 减弱 相似 性 ,但 是 共 
同 特征 对 相似 度 的 增强 影响 要 大 于 不 同 特征 减弱 相似 度 的 影响 。 所 以 在 评价 相似 度 的 时 
候 , 相 对 于 不 同 特征 而 言 , 我 们 会 给 予 概念 的 共同 特征 以 更 大 的 信任 度 。 举 个 例子 ,比如 说 


Semsimilarity( T,S) = 
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赛车 和 轿车 ,它们 非常 相似 ,因为 它们 有 很 多 共同 特征 ,如 车 轮 . 引 擎 .方向盘 、 排 档 等 。 但 是 
它们 又 有 一 些 区 别 让 它们 不 相似 :比如 高 度 和 轮胎 的 尺寸 等 。 在 网 络 协同 制造 本 体 中 ,概念 

的 特征 主要 通过 属性 来 体现 ,因而 概念 之 间 特 征 的 比较 可 以 通过 对 概念 之 间 属 性 的 比较 来 
实现 。 基 于 Tversky 的 模型 ,函数 Similarity(Ci,Ci ) 的 语义 相似 度 计 算 如 下 式 所 示 : 

[ECCJ N POOH T TECJ NM POCD I 

[LPOYU PG | | P(Ci) | 

其 中 ,函数 P(z) 表 示 与 概念 相关 的 所 有 属性 ,函数 |z| 则 返回 xz 中 属性 元 素 的 个 数 。 函 数 
Similarity(Ci ,GC;) 的 结果 由 两 个 部 分 的 几何 平均 值得 到 : 两 个 概念 的 共同 属性 占 两 个 概念 

所 有 属性 的 比率 ,两 个 概念 的 共同 属性 占 被 匹配 概念 的 所 有 属性 的 比率 。 


12.6.2 制造 服务 资源 访问 策略 


智能 协同 制造 服务 网 络 中 个 体 、 智 能 工厂 在 异地 存放 有 大 量 的 制造 资源 、 中 间 成 果 , 例 
如 委托 IME-A 开展 设计 ,委托 IME-B 准备 原材料 ,委托 IME-C 进行 加 工 , 委 托 IME-D 代 
理 销售 ,不 同 制造 应 用 之 间 服 务 、 资 源 的 访问 都 将 被 操作 者 需要 ,不 同 智能 工厂 间 应 用 或 服 
务 的 安全 机 制 我 们 称 为 智能 协同 制造 服务 体系 下 的 服务 联合 安全 与 授权 ,涉及 两 个 方面 : 
身份 认证 和 服务 授权 。PKI(Public Key Infrastructure) 体 系 是 目前 单 IME 建立 内 部 不 同 
应 用 之 间 统 一 身份 认证 的 通用 手段 。 基 于 X. 509 协议 的 CA 是 PKI 的 核心 。CA 中 心 签发 
CA 证书 。 现 行 的 PKI 机 制 一 般 为 双 证 书 机 制 , 即 一 个 实体 应 具有 两 个 证 书 , 两 个 密 钥 对 ， 
分 别 用 于 加 密 和 签名 。CA (Certificate Authority) 中 心 及 应 用 集成 是 PKI 体系 的 实现 ,一 
个 完整 的 PKI 体系 包括 根 CA 、 子 CA 中 心 、 密 钥 管 理 服 务 器 、 证 书签 发 服务 器 、 安 全 审计 服 
务 器 .证 书目 录 服 务 器 .注册 服务 器 .OCSP(Online Certificate Status Protocol) 服 务 器 、 远 程 
注册 系统 .证书 审批 服务 器 。 企 业 利用 CA 系统 中 的 应 用 API 和 安全 服务 API 实现 统一 身 
份 认证 和 单 点 登录 。 


12.6.3 制造 服务 资源 的 优化 与 智能 调度 


在 智能 协同 制造 服务 网 络 选择 中 每 个 智能 工厂 的 生产 规模 .生产 设备 .技术 专家 、 普 通 
劳动 力 、 原 材料 等 制造 资源 时 刻 处 于 动态 变化 中 。 传 统 的 制造 活动 会 受 限于 本 地 资源 。 

在 智能 协同 服务 全 域 资源 可 用 条 件 下 ,制造 活动 有 可 能 不 至 于 由 于 某 些 资源 的 欠缺 导 
致 错失 良机 。 在 此 类 情况 下 ,我们 希望 找到 一 种 解决 方案 来 从 可 用 制造 资源 中 选择 最 优 
方案 。 

我 们 将 问题 抽象 如 下 。 

制造 资源 : 智能 工厂 拥有 的 智能 制造 资源 简化 为 设备 ,专家 工程 师 、 工 人 、 原 材料 等 类 
别 。 我 们 假定 一 个 生产 任务 通过 上 述 制造 资源 可 以 完成 。 

本 地 资源 : 智能 工厂 自 有 的 智能 制造 资源 。 

虚拟 资源 : 通过 智能 协同 制造 网 络 体 系 可 以 访问 并 得 到 授权 的 智能 制造 资源 。 

假设 条 件 : 

(1) 加 入 到 智能 协同 制造 服务 的 IME 本 身 是 可 信和 的 。 

(2) SCIM 中 被 共享 的 IMR 是 真实 可 信和 的。 

(3) 可 用 虚拟 资源 已 经 通过 资源 分 享 和 同步 机 制 在 有 限时 间 内 得 到 确认 。 











Similarity(C:;,C;) 
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(4) 网 络 环境 是 可 靠 的 。 

(5) 资源 可 达 。 线 上 所 获得 的 资源 可 以 通过 线 下 的 法 律 商务 活动 得 到 确认 。 

问题 : 在 生产 紧张 ,本 地 没有 可 用 资源 的 情况 下 ,如 何 从 虚拟 资源 中 选择 最 优 的 合作 
伙伴 。 

1. 制造 服务 资源 的 优化 

如 下 所 示 , 在 紧 耦 合 的 智能 工厂 联盟 域 Domain2 中 的 虚拟 资源 请 求 者 IME-A 向 本 地 
域 服务 器 发 出 虚拟 资源 的 请 求 。 制 造 资 源 服 务 器 可 基于 前 述 LDAP 服务 实现 。A 请 求 资 
源 并 进行 资源 决策 的 过 程 如 以 下 流程 示意 。 首 先 , 假 定 资源 仅 限 于 设备 工程师, 专家、 工人 
和 原材料 。 各 种 资源 具有 更 多 的 参数 ,例如 ,设备 资源 包括 其 利用 成 本 .生产 速度 .刀具 数 
量 、 工 艺 精度 ,故障 率 ; 工程 师 可 以 细 分 至 其 专业 方向 等 。 需 要 按照 以 下 步骤 来 执行 。 

1) 发 送 请 求 

当 智 能 工厂 因 条 件 限 制 ,自身 所 拥有 的 资源 不 足以 满足 当前 的 生产 要 求 时 ,可 以 选择 向 
虚拟 组 织 本 地 域 制造 资源 服务 器 发 送 申请 ,请 求 资源 调配 。 此 时 智能 工厂 应 向 服务 器 提交 
具体 的 资源 需求 标准 及 限制 条 件 ,如 资源 类 型 数量、 成 本 要 求 ,精度 要 求 .时 间 要 求 等 ,同时 
还 应 提交 对 调度 资源 的 偏好 信息 ,以 供 后 期 建 模 寻找 最 优 方案 提供 参考 依据 。 

2) 数据 传递 与 分 析 

当 资 源 服务 器 收 到 智能 工厂 提交 的 请 求 信息 时 ,基于 已 经 得 到 收敛 的 制造 资源 信息 进 
行 计算 。 智 能 工厂 通过 本 地 资源 请 求 终端 提出 虚拟 资源 的 跨 域 边界 。 

3) 建立 模型 求解 方案 

多 目标 规划 研究 多 于 一 个 的 目标 函数 在 给 定 区 域 上 的 最 优化 。 从 资源 服务 器 寻找 资源 
匹配 方案 时 需要 考虑 多 方面 因素 ,对 此 需要 建立 多 目标 规划 模型 。 针 对 现实 问题 的 复杂 性 ， 
在 效用 最 优化 模型 (又 称 线性 加 权 法 ) 与 隐 枚 举 法 的 基础 之 上 ,寻找 最 优 方案 。 将 多 个 目标 
函数 根据 申请 方 提供 的 参数 权重 为 系数 建立 效用 函数 将 多 目标 问题 转化 到 传统 的 单 目标 规 
划 问 题 。 运 用 隐 枚 举 法 ,找到 满足 要 求 的 可 行 域 ,对 于 不 落 入 可 行 域 的 解 筛 除 ,获得 多 组 非 
劣 解 , 以 效用 函数 作为 评判 优 劣 好 坏 的 依据 ,对 可 行 解 进行 排序 、 组 合 , 获 得 若干 种 解决 
方案 。 

对 于 每 笔 订单 , 我 们 总 希望 能 够 以 尽量 少 的 成 本 得 到 品质 尽量 好 的 产品 ,所 以 设 目 标 函 
数 为 : 

二 ov 
maxf:(X) 

式 中 ,XX 为 n 维 决策 变量 向 量 。 

第 一 个 目标 函数 表示 的 是 所 求 的 解 对 应 的 生产 成 本 应 尽 可 能 低 , 第 二 个 目标 函数 表示 
的 是 所 求 的 解 对 应 的 产品 工艺 应 尽 可 能 高 。 

根据 各 个 工厂 的 生产 因素 数据 定义 系数 矩阵 4r : 

all az h(l,p) an 


着 人 Be) i 


am az h(n.p) am 
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4T, 表示 为 p 时 刻 所 对 应 的 各 工厂 的 生产 参数 。 
现 需要 生产 产品 Y,z 千 件 , 假 设 对 于 工厂 i 完成 这 笔 订单 所 需 时 间 为 
ti(ti € Z,i = 1,2,.…%) 
那么 满足 &; 满足 条 件 式 


Daahlisp)7 
p=0 


在 模型 中 定义 i; 为 最 小 的 时 间 单 位 , 往 下 不 再 可 分 ,作为 离散 问题 的 解 保证 4 为 整数 ， 
故 右 应 取 满足 上 述 条 件 式 的 最 小 整数 。 
通过 以 上 条 件 求 得 i 并 进一步 得 到 新 的 系数 矩阵 Al 


am dan tn 
在 具体 的 实际 问题 中 ,对 于 生产 订单 经 常会 有 一 些 硬 性 限制 条 件 , 比 如 该 订单 需要 在 多 
长 时 间 生 产 完成 ,生产 成 本 要 在 多 少 以 下 、 产 品质 量 要 达到 一 个 什么 标准 ,对 此 ,我 们 引入 约 
束 向 量 
b= (6b,b; ,bs) 
其 中 : bb 为 生产 成 本 约束 ; b: 为 生产 工艺 约束 ; bs 为 生产 时 间 约 束 。 
这 样 就 可 以 建立 如 下 标准 的 多 目标 线性 规划 模型 (LP* ) 
| 
maxf:(X) 
JT 


Fo0=| 


Qn dan taj Li 
式 中 : fi (XX) 表示 生产 成 本 ,f: (XX) 表 示 产 品 工 艺 ,X= [zi ,Xs，… ,Xx,] "为 决策 变量 向 量 ; 


an Q 三 


az daz tz 


A 一 | “| 为 系数 年 隆 : 5 一 [bi,bs,bs]" 为 约束 向 量 。 





Aan dn4 [9 

传统 的 多 目标 线性 规划 问题 ,最 终 只 从 nn 种 决策 中 选择 一 种 作为 问题 最 优 解 , 现 考 虑 有 
决策 组 合 的 可 能 性 , 即 可 将 多 种 选择 组 合 至 一 起 形成 新 的 可 行 解 。 

2. 智能 调度 

当 我 们 已 确定 了 最 终 资源 组 合 方案 ,在 最 终 资 源 组 合 方案 中 ,向 本 地 提供 空闲 资源 的 工 
厂 称 为 合作 伙伴 。 假 定 具 体 的 生产 工序 已 知 ,此 时 考虑 一 种 特殊 情形 : 智能 协同 制造 网 络 
体系 中 合作 伙伴 所 提供 的 设备 资源 具有 柔性 ,可 负责 完成 生产 流程 中 的 多 种 工序 。 

此 时 ,整个 生产 流程 并 非 会 全 部 在 本 地 工厂 内 部 完成 ,而 是 将 生产 流程 根据 资源 配置 
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及 具体 工序 划分 成 车 干 子 流 程 分 配给 各 个 合作 伙伴 ,形成 VPL。 为 缩短 时 间 , 可 能 需要 
同一 时 刻 一 起 进行 多 个 子 流程 。 下 面 将 针对 在 资源 池 已 经 完备 且 要 同时 进行 多 个 子 流 
程 作业 的 情况 下 ,如 何 将 资源 合理 分 布 到 各 个 合作 伙伴 进行 研究 。 为 方便 分 析 , 将 问题 
抽象 如 下 。 

假设 条 件 : 

(1) 从 合作 伙伴 处 得 到 的 虚拟 资源 刚好 满足 生产 的 资源 需求 量 , 无 多 余 资 源 。 

(2) 生产 流程 是 可 分 的 ,根据 具体 生产 工序 可 分 为 多 个 部 分 。 

(3) 合作 伙伴 的 设备 资源 均 具 有 柔性, 能够 负责 完成 多 种 子 流程 。 

(4) 所 讨论 的 所 有 子 流程 为 同时 刻 进行 的 。 例 如 ,造船 的 分 段 工 作 。 

(5) 任何 一 个 合作 伙伴 IME 在 完成 任何 一 个 可 以 完成 的 子 流 程 时 ,生产 总 成 本 与 使 用 
的 柔性 资源 数量 成 线性 比例 关系 。 

(6) 生产 工序 一 旦 开始 进行 加 工 ,中 途 即 不 再 有 任何 意外 情况 使 其 中 断 。 

问题 ; 在 生产 资源 已 备 齐 的 情况 下 ,如何 合理 分 配 虚 拟 柔性 资源 从 而 使 得 成 本 最 低 ? 

根据 具体 的 生产 任务 情况 ,具体 产品 所 对 应 的 具体 生产 工序 以 及 申请 方 对 生产 任务 的 
时 间 约 束 ,计算 出 生产 任务 中 每 个 子 流 程 所 需要 的 资源 数量 ,设备 资源 虽 为 柔性 ,但 对 于 不 
同 生产 子 流 程 ,其 作业 成 本 与 速度 不 尽 相同 ,考虑 到 地 域 问 题 ,运输 成 本 也 存在 差异 。 综 
合 考虑 合作 伙伴 的 生产 能 力 、 人 力 资源 ,公司 规模 、 地 理 位 置 等 情况 ,物料 运输 成 本 和 产 
品 运 输 成 本 ,计算 出 每 个 合作 伙伴 单位 资源 的 生产 成 本 ,假定 单位 生产 成 本 与 使 用 资源 
数量 成 正比 例 关 系 , 针 对 分 配 问题 ,利用 产销 平衡 问题 (平衡 运输 问题 ) 的 解 题 思想 ,建立 
模型 。 

遵循 总 成 本 最 低 的 原则 寻找 分 配方 案 , 对 此 我 们 建立 分 配 问题 数学 模型 


2 

单纯 形 法 的 基本 思想 是 : 先 找 出 一 个 基本 可 行 解 , 对 它 进行 鉴别 ,看 是 否 是 最 优 解 ; 若 
不 是 , 则 按照 一 定 法 则 转换 到 另 一 改进 的 基本 可 行 解 , 再 鉴别 ; 若 仍 不 是 , 则 再 转换 , 按 此 重 
复 进行 。 因 基本 可 行 解 的 个 数 有 限 , 故 经 有 限 次 转换 必 能 得 出 问题 的 最 优 解 。 如 果 问 题 无 
最 优 解 也 可 用 此 法 判别 。 

具体 计算 步骤 归纳 为 以 下 几 点 : 

(1) 确定 初始 基 可 行 解 ,将 基 可 行 解 填 人 资源 分 配 表 。 

(2) 用 闭 回 路 法 求 出 各 个 非 基 变量 的 检验 数 , 并 判别 该 基 可 行 解 是 否 已 达到 最 优 解 。 
车 已 经 是 最 优 解 , 则 停止 计算 ,车 不 是 ,执行 下 一 步 。 

(3) 用 闭 回 路 法 进行 调整 。 确 定 信 基 变 量 、 出 基 变 量 , 寻 找 新 的 基 可 行 解 。 

(4) 重复 步骤 (2) 和 步骤 (3) 一 直到 求 出 最 优 解 。 
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12.6.4 智能 化 协同 制造 研究 与 自学 习 机 制 


在 智能 协同 制造 生命 周期 过 程 中 ,市 场 研 发 .制造 服务 各 环节 的 自我 更 新 是 智能 工厂 的 
重要 活动 组 成 。 智 能 工厂 必须 从 前 沿 技术 ,专家 智慧 和 竞争 对 手 的 创新 中 获得 灵感 。 智 能 
工厂 作为 一 个 复杂 的 智能 体 ,其 自我 演化 的 智慧 应 该 来 自 于 以 下 4 个 方面 。 

(1) 来 自 企 业内 部 业务 系统 的 结构 化 或 者 非 结 构 化 数据 。 结构 化 数据 可 以 通过 可 视 化 
的 报表 工具 来 进行 商业 智能 挖掘 。 

(2) 内 部 海量 的 制造 业务 文档 的 社会 化 关系 所 隐 含 的 智慧 。 

(3) 企业 外 部 制造 联盟 的 关联 文档 及 社会 化 关系 所 隐 含 的 智慧 。 

(4) 来 自 整 个 智能 协同 制造 服务 的 关联 技术 文档 及 社会 化 关系 所 隐 含 的 智慧 。 

但 是 ,智能 工厂 内 的 制造 智慧 散落 在 各 个 制造 应 用 中 , 且 存 在 如 下 一 系列 问题 。 

问题 一 ,通常 情况 下 ,企业 制造 应 用 包括 面向 特定 专业 的 资讯 .技术 文档 推送 消息 ,这 
些 内 容 往 往 包括 在 制造 应 用 的 “帮助 消息“ 看板" 等 不 同 的 功能 模块 中 。 实 际 情况 是 制造 
应 用 系统 在 企业 内 已 经 形成 了 和 矩阵 的 应 用 模式 。 每 个 应 用 都 在 向 使 用 者 发 送 具 有 一 定 重合 
和 交叉 的 知识 ,但 是 并 没有 形成 关联 关系 。 

问题 二 ,智能 工厂 内 的 制造 服务 应 用 经 常 基于 不 同 操作 系统 平台 ,不 同 数据 格式 ,如 
MySQL ,Microsoft SQL ,Oracle, DB2 等 不 同 数 据 库 格式 。 互 联网 思想 影响 智能 工厂 内 的 
应 用 ,制造 服务 应 用 的 UI 也 与 往常 的 MIS 大 不 一 样 ,更 多 的 页 面 交 互 性 往往 都 带 有 验证 
码 , 社 区 论坛 的 逐 层 消息 也 和 传统 的 二 维 数据 库 关系 有 所 差异 。CAD、CAM、CAPP 等 专 有 
制造 文档 ,由 于 在 线 培训 的 需要 ,MP3、MP4、JPG、PNG、BMP 等 多 媒体 文档 也 成 为 制造 知 
识 的 一 部 分 ,但 经 常 游离 在 外 。 协 同 制造 生命 周期 所 包含 的 产品 体验 数据 来 自 互 联网 ,通常 
以 微 博 、 微 信 、QQ 的 方式 反馈 ,它们 也 是 制造 知识 来 源 的 一 部 分 。 

问题 三 ,本 地 文件 . 异 构 的 分 布 式 文件 系统 使 得 制造 文档 的 存储 分 布 在 不 同 地 方 产生 了 
文件 统一 搜索 问题 。 

问题 四 ,智能 工厂 内 以 及 智能 工厂 间 的 知识 没有 得 到 社会 化 共享 。 举 例 来 说 ,智能 工厂 
内 的 设计 部 门 员工 A 需要 了 解 “元 器 件 X 的 耐 腐蚀 性 材料 的 新 一 代 技 术 ”, 其 实 企业 集团 的 
制造 部 门 的 员工 B 由 于 个 人 感 兴趣 已 经 收集 了 大 量 材料 ,由 于 双方 之 间 没 有 形成 协同 , 员 
工 A 需要 重新 探索 一 次 。 同 样 的 场景 也 会 发 生 在 智能 工厂 间 而 产生 信息 距离 。 以 上 信息 
源 大 数据 ,通过 信息 采集 和 分 析 处 理 进行 知识 发 现 , 如 图 12-18 所 示 。 

为 解决 上 述 问题 ,我 们 将 智能 化 协同 制造 服务 内 的 所 有 终端 都 看 作 可 进化 的 种 群 ,终端 
本 身 是 弹性 的 , 既 可 以 小 到 员工 ,制造 服务 应 用 ,也 包括 智能 工厂 本 身 或 者 一 个 紧 耦 合 的 智 
能 工厂 联盟 ,构造 智能 协同 制造 服务 的 制造 智慧 遗传 算法 。 基 于 遗传 算法 ,协同 制造 服务 体 
系 本 身 . 单 智能 工厂 . 单 智能 工厂 内 的 制造 应 用 、 智 能 工厂 内 员工 均 可 以 实现 自学 习 。 遗 传 
算法 允许 知识 自我 更 新 的 人 工 干预 和 自动 配置 的 方式 。 基 于 遗传 算法 的 知识 学 习 可 以 作为 
独立 的 制造 应 用 ,也 可 以 通过 智能 工厂 内 部 数据 总 线 嵌 入 到 制造 业务 应 用 中 。 

其 中 ,要 素 抽取 从 非 结 构 化 文档 中 抽取 出 符合 条 件 的 内 容 , 形 成 字段 。 行业 关键 字 规 则 
预先 建立 行业 的 常用 关键 字 及 其 逻辑 推理 关系 ,用 于 之 后 的 推理 机 制 。 主 题 知识 则 预先 初 
始 化 常用 主题 知识 库 。 

格式 识别 基于 文件 头 信息 识别 .将 无 意义 的 内 容 清洗 后 ,保留 核心 数据 ,创建 统一 的 
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搜索 与 推送 








任务 驱动 的 知识 积累 索引 池 | 主题 知识 索引 | 行业 制造 基础 知识 索引 








抽取 组 织 | | 聚 类 分 类 | | 知识 关联 自动 更 新 机 制 | | 索引 生成 











特征 向 量 与 距离 计算 








字 规 则 提取 
特征 向 量 与 距离 计算 行业 文件 模板 学 习 器 


设计 IL 艺 || 仿真 || 知识 | | 音频 || 邮件 || 图 像 || 网 页 
文档 | | 文档 || 文档 || 档案 | | 视频 


图 12-18 文件 内 容 采 集 与 处 理 流程 的 层次 结构 


XML 格式 的 索引 。 结 合 基于 距离 的 语义 相似 度 、 基 于 信息 内 容 的 语义 相似 度 、 基 于 属性 的 
语义 相似 度 、 混 合式 语义 相似 度 算法 构造 混合 语义 分 析 算 法 ,可 以 相对 较为 准确 地 理解 制造 
行业 技术 文档 及 相关 自然 语言 的 语义 。 混 合算 法 的 形式 化 表示 如 图 12-19 所 示 。 

在 上 述 公式 中 ,C1、C2 代表 距离 计算 数值 , M1、 (Sim(C1,C2)*p1+Sim(M1,M2)*p2+Sim 
M2 代表 高 频 词 统计 ,L1、L2 代表 低频 词 统计 ,Sl1、S2 Ch PO te Dete CS) 
代表 句子 统计 ,D1、D2 代表 段落 统计 ,V1、V2 代表 (S1,S2)*p8 ) *Y1+ ( Sim(D1.D2)"p9-Dis 

(D1,D2)*p10 ) *Y1+ ( Sim(V1,V2)*p11- 

谓词 统计 , Pl、P2、P3、P4、P5、P6、P7、P8、P9、P10、 Dis(V1,V2)*p12 ) *Y1 
P11、P12 均 代 表 可 调 参数 ,在 域内 初始 运行 时 刻 经 ”图 12-19 语义 分 析 算 法 的 形式 化 公式 
过 统计 计算 出 来 ,可 根据 结果 人 工 调整 。Y1 代表 语 
言 学 可 调 参数 ,与 语种 有 关 , 不 同 的 语种 具有 不 同 的 参数 。Sim 是 相似 性 计算 ,Dis 是 差异 
性 计算 。 

用 户 输 入 想 要 查找 的 样本 或 者 特征 ,搜索 进程 学 习 目 标的 特征 ,生成 特征 规则 ,然后 利 
用 特征 规则 在 文件 中 对 内 容 进行 比 对 ,最 后 发 现 未 知 内 容 。 通 过 复合 选择 项 参数 : 精确 匹 
配 、 相 似 、 前 精确 后 相似 、 前 相似 后 精确 、 特 殊 部 位 相似 来 配置 比 对 条 件 。 比 如 输入 *F22/A”， 
选择 “前 精确 后 相似 ”, 那 么 根据 上 述 机 制 可 生成 特征 公式 : FL[-] * 22[L/-] 十 ?[\w] 十 ?, 这 时 
候 可 以 发 现 F22 的 各 种 型 号 : F22/S、F22/A、F-22/A、F-22/B 等 。 如 果 用 户 选 择 “ 相 似 ”, 那 
么 可 生成 男 一 特征 公式 : [wj 十 ?[-] x [dj 十 ?[/-] 十 ?[\wj 十 ?, 这 时 候 不 但 能 发 现 F22/A， 
而 且 还 能 自动 发 现 F35/A、F35-B、F-35/A、Su35-B 等 符合 特征 的 近似 内 容 。 构 造 基于 特征 
学 习 的 未 知 内 容 发 现 机 制 包 含 特征 发 现 、 特 征 学 习 、 模 式 匹 配 构成 。 特 征 发 现 是 对 每 一 个 词 
的 前 词 . 后 词 . 相 似 性 、 变 化 性 进行 统计 ,继而 发 现 一 些 特征 经 常 出 现 的 概率 ,从 而 发 现 特征 
并 计算 特征 可 能 性 的 值 。 发 现 特征 后 ,记录 下 特征 的 变化 规律 ,并 自动 生成 模式 公式 ,每 一 
种 特征 均 有 一 组 模式 公式 相对 应 。 模 式 匹 配 可 采用 KMP 匹配 算法 和 BM 匹配 算法 。 推 理 
检索 机 制 的 目的 是 解决 文章 语义 包含 某 关 键 字 方面 的 意思 ,但 明文 不 包含 关键 字 的 情况 。 
推理 是 用 本 体 推理 机 完成 的 ,本 体 提供 共享 词 表 , 即 特 定制 造 领域 之 中 那些 存在 着 的 对 象 类 
型 或 概念 及 其 属性 和 相互 关系 。 一 旦 通过 语义 提取 并 进行 知识 关联 后 ,除了 常规 关键 字 检 
索 , 还 可 通过 预先 设 定 的 逻辑 规则 。 

















语种 识别 | 行业 关键 | | 要 素 与 关键 字 | | 清洗 过 滤 
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概括 而 言 ,本 地 域 中 指定 的 开放 数据 源 、 在 本 地 的 应 用 数据 将 在 智能 协同 制造 企业 域内 
挖掘 到 并 交换 给 同 域 内 的 其 他 代理 ,基于 JXTA 的 P2P 网 络 上 的 代理 服务 器 将 交换 彼此 的 
智慧 从 而 实现 智能 协同 制造 (ICM) 体 系 内 的 制造 智慧 的 遗传 进化 。 


12.7 工业 大 数据 展望 


随 着 工业 互联 网 建设 和 应 用 不 断 深入 ,数据 的 价值 与 作用 将 越 来 越 凸 显 ,数据 分 析 将 向 
工业 各 环节 渗透 ,预测 .决策 .控制 等 更 智能 的 应 用 成 为 发 展 方向 ,最 终 构成 从 数据 采集 到 设 
备 . 生 产 现场 及 企业 运营 管理 优化 的 闭环 。 工 业 数据 未 来 将 呈现 出 以 下 几 个 发 展 方向 : 一 
是 跨 层次 跨 环节 的 数据 整合 。 当 前 工业 数据 水 平 来 看 分 散在 研发 设计 、 生 产 管理 ,企业 经 营 
等 各 个 环节 ,垂直 来 看 分 散在 生产 现场 企业 管理 (MES、ERP) 等 不 同 层次 ,下 一 步 数据 在 
垂直 和 水 平 两 个 方向 都 需要 整合 ,为 全 局 视图 分 析 葛 定数 据 基 础 。 其 中 ,语义 技术 将 发 挥 重 
要 作用 ,利用 语义 可 以 对 工业 互联 网 数据 的 含义 进行 标注 ,使 数据 在 异 构 系 统 之 间 能 够 被 正 
确 理解 和 处 理 。 二 是 数据 在 边缘 的 智能 处 理 。 在 靠近 数据 源头 的 网 络 边缘 节点 上 ,通过 融 
合计 算 、 存 储 与 控制 等 功能 ,实现 数据 的 边缘 处 理 、 分 析 与 过 滤 , 以 满足 工业 生产 现场 实时 连 
接 、 实 时 控制 .实时 分 析 、 安 全 隐私 等 需求 ,并 可 以 与 云 平台 实现 互补 。 三 是 基于 云 平台 数据 
集成 管理 。 将 数据 汇聚 起 来 ,上 传 到 云 计 算 平 台 进 行 分 析 处 理 , 是 未 来 的 主流 方向 ,基于 成 
熟 的 、 经 验证 的 技术 以 及 大 数据 平台 来 支撑 工业 数据 的 数据 建 模 、. 数 据 抽 取 ETL ,查询 与 计 
算 ,与 传统 实时 数据 库 、 关 系数 据 库 和 MPP 数据 混搭 应 用 ,是 云 化 的 工业 大 数据 平台 构建 
的 主流 方向 。 四 是 深度 数据 分 析 挖 掘 。 知 识 驱动 的 分 析 方法 ,建立 在 工业 系统 的 物理 化 学 
原理 .工艺 及 管理 经 验 等 知识 之 上 。 数 据 驱 动 的 分 析 方法 ,完全 在 数据 空间 中 通过 算法 寻找 
规律 和 知识 。 未 来 的 发 展 趋势 是 更 多 地 将 基于 知识 的 方法 与 数据 驱动 方法 融合 ,满足 工业 
数据 分 析 对 高 置信 度 的 要 求 。 五 是 数据 可 视 化 。 建 立 机 器 、 生 产 流程 .全 生产 周期 等 拟 真 数 
字 化 模型 ,并 进行 可 视 化 呈现 ,使 生产 管理 者 、 系 统 开发 者 和 用 户 能 够 更 加 直观 全 面 地 了 解 
相关 信息 ,支撑 设计 、 生 产 、 产 品 流通 与 交易 、 产 品 服务 等 环节 的 决策 水 平 。 

同时 ,网 络 化 制造 技术 是 一 个 充分 融合 制造 技术 与 信息 技术 的 前 沿 研究 方向 .因此 充分 
发 挥 信息 技术 的 优势 是 其 不 断 发 展 和 取得 突破 的 方向 所 在 。 本 章 在 写作 时 注意 将 当前 信息 
技术 领域 (语义 技术 、Web 服务 、 网 格 计算 等 ) 的 新 思想 、 新 成 果 与 网 络 化 制造 技术 的 研究 进 
行 了 紧密 结合 ,针对 智能 工厂 异地 协同 制造 过 程 ,提出 了 智能 协同 制造 服务 概念 ,目的 是 希 
望 寻找 一 种 通过 虚拟 生产 线 使 智能 工厂 间 合作 制造 的 网 络 化 制造 实现 方式 ,为 实现 智能 化 
协同 制造 服务 的 大 规模 工业 化 应 用 做 一 些 积极 有 益 的 探索 。 
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使 -ee-e 


大 数据 工程 建设 是 一 项 巨大 的 系统 工程 , 它 涉及 社会 或 各 行 各 业 信 息 化 数据 的 综合 集 
成 和 知识 发 现 。 其 中 ,政府 、 人 金融、 环保. 医疗. 工业 制造 等 又 属于 热点 行业 而 且 数据 交互 强 、 
数据 关联 度 高 .涉及 社会 多 方面 .为 了 切实 有 效 地 推进 大 数据 工程 建设 ,必须 进一步 建立 健 
全 的 相关 保障 机 制 。 
13.1 法 律 体系 建设 

大 数据 环境 下 ,企业 信用 呈现 体态 虚拟 化 与 数字 化 .影响 因素 广泛 化 与 纵深 化 的 新 特 
点 ,而 企业 信用 监管 的 法 律 、 制 度 不 健全 ,相关 保障 措施 和 欠缺。 应 建立 以 企业 信用 基本 法 为 
基础 的 企业 信用 监管 法 律 体系 ,并 以 中 央 为 主导 、 地 方 为 特色 完善 企业 信用 分 类 监管 制度 ， 
提升 大 数据 技术 处 理 能 力 与 企业 信用 监管 水 平 ,注重 企业 信用 法 律 监管 中 权益 保护 的 均衡 
性 ,做 好 企业 信用 法 律 监管 的 保障 工作 。 

计算 机 技术 的 发 展 和 云 计 算 技术 的 兴起 使 得 大 数据 在 社会 经 济 生活 中 的 应 用 不 断 加 强 
与 深化 。 大 数据 是 一 个 相对 比较 抽象 的 概念 , 单 是 从 字面 来 看 就 表示 了 数据 之 多 之 大 ,但 其 
最 主要 的 内 涵 在 于 数据 的 全 面 性 和 不 可 穷尽 性 。 截 至 目前 .学界 尚未 对 大 数据 形成 统一 的 
概念 。 一 般 认为 ,大 数据 是 指数 量 巨 大 、 类 型 众多 结构 复杂 、 有 一 定 联系 的 各 种 数据 所 构成 
的 数据 集合 。 大 数据 的 主要 功能 在 于 可 以 不 断 提升 数据 的 使 用 价值 ,实现 数据 的 快速 流转 
和 多 样 化 的 数据 处 理 模 式 。 大 数据 为 企业 的 经 营 决 策 提供 了 更 为 全 面 详尽 的 数据 支持 ,为 
企业 的 信用 信誉 建设 搭建 了 新 的 平台 和 快速 构建 通道 。 大 数据 技术 的 不 断 发 展 势必 会 对 企 
业 信 用 监管 体系 产生 极 大 的 挑战 与 冲击 ,同时 也 会 为 其 发 展 革新 带 来 新 的 机 遇 , 如 何 更 好 地 
迎接 挑战 ,把 握 机 遇 就 显得 尤为 重要 。 

1. 构建 全 方位 .立体 化 的 法 律 监管 

(1) 建立 以 企业 信用 基本 法 为 基础 的 企业 信用 监管 法 律 体系 大 数据 环境 下 .企业 信用 
监管 呈现 出 新 的 特点 ,需要 更 为 细致 完备 的 法 律 去 对 监管 的 各 个 环节 进行 规制 ,从 而 实现 新 
环境 下 监管 工作 有 法 可 依 的 状态 。 完 善 的 法 律 监管 模式 应 在 包括 消费 信用 、 工 商 信用 以 及 
信贷 等 有 关 信用 交易 体系 内 形成 全 方位 的 、 严 密 的 监管 法 律 。 信 用 交易 可 以 极 大 地 便捷 市 
场 交易 行为 及 扩大 市 场 交 易 规 模 , 有 效 地 适应 全 球 化 贸易 的 需要 。 良 性 高 效 运行 的 信用 交 
易 必 须 形成 于 国家 信用 管理 制度 之 上 ,而 要 形成 健全 的 国家 信用 监管 体系 就 必须 健全 信用 
监管 的 法 律 ,完善 立法 。 在 很 大 程度 上 ,企业 主 个 人 的 信用 行为 会 影响 企业 信用 ,所 以 ,立法 
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应 该 将 企业 主 的 个 人 行为 纳入 企业 信用 监管 体系 内 ,对 其 进行 并 列 监管 并 以 个 人 信用 行为 
为 限 对 企业 信用 违法 行为 承担 连带 责任 。 大 数据 环境 下 ,国家 最 高 权力 机 关 更 应 加 快 制定 
规范 企业 主体 信用 行为 ,调整 各 个 信用 主体 间 权 利 义 务 关系 的 信用 基本 法 。 通 过 立法 对 相 
关 主 体 的 权利 义务 予以 明确 ,为 信用 数据 的 收集 、 处 理 以 及 各 主体 信用 行为 的 奖惩 评判 提供 
法 律 依据 ,在 信用 数据 的 来 源 、 存 储 、 使 用 的 过 程 中 实现 全 方位 .立体 化 的 监管 。 同 时 ,应 当 
在 结合 本 国 实际 的 前 提 下 积极 借鉴 欧美 等 信用 法 制 发 达 国 家 的 有 关 立 法 经 验 ,制定 出 可 行 
性 强 ` 有效 性 高 的 本 国信 用 监管 法 律 。 企 业 信用 的 相关 者 众多 且 各 相关 者 所 提供 的 有 关 该 
企业 信用 的 数据 是 对 企业 进行 信用 监管 的 重要 数据 依据 。 信 用 表现 为 对 民事 主体 经 济 信赖 
的 社会 评价 ,信用 的 客观 表现 是 一 种 评价 ,这 种 评价 是 社会 公众 的 评价 ,而 不 是 当事人 的 自 
我 经 济 评价 ; 这 种 评价 是 对 特定 主体 经 济 信赖 的 客观 评价 , 它 可 能 是 但 不 一 定 是 肯定 性 的 
社会 评价 。 在 企业 信用 监管 立法 过 程 中 要 坚决 贯彻 诚实 信用 原则 ,诚实 信用 被 奉 为 民法 的 
基本 原则 ,有 “君临 法 域 " 的 效力 。 我 国 ( 民 法 通则 》《 合 同 法 ) 中 都 明确 规定 了 诚实 信用 原则 
是 市 场 经 济 主体 进行 交易 订立 合同 的 基本 原则 ,这 就 可 以 明确 该 原则 同时 也 应 成 为 建立 企 
业 信 用 基本 法 的 基本 原则 。 

(2) 以 中 央 为 主导 、 地 方 为 特色 完善 企业 信用 分 类 监管 制度 在 完善 企业 信用 监管 法 律 
的 基础 上 ,要 在 日 常 监管 工作 中 实现 对 主体 信用 监管 的 法 制 化 ,常态 化 ,就 必须 在 中 央 政 府 
的 主导 下 形成 全 国 性 的 ,部门 性 的 及 地 方 性 的 可 执行 性 强 的 企业 信用 监管 制度 ,以 彰显 企业 
信用 法 律 监管 的 实效 。 如 将 企业 投 招 标 等 生产 经 营 行 为 与 企业 信用 记录 结合 ,对 信用 数据 
记录 不 良 的 企业 市 场 行为 进行 必要 的 限制 ; 将 企业 失信 数据 进行 累加 并 明确 对 失信 企业 的 
整改 措施 等 。 各 地 在 中 央 的 统一 部 署 下 应 结合 本 地 域 特点 完善 地 方 信用 监管 机 制 ,可 根据 
本 地 的 经 济 发 展 水 平 制定 出 地 方 性 的 企业 信用 激励 机 制 , 对 信用 良好 ,诚信 和 度 高 的 企业 在 制 
度 允 许 的 范围 内 予以 税收 优惠 、 财 政 补贴 等 倾斜 ; 同时 ,应 积极 建立 企业 信用 不 良 记 录 黑 名 
单 制度 ,对 信用 不 良 企 业 予 以 惩处 并 曝光 ,在 全 社会 范围 内 营造 守信 获 益 .失信 受 损 的 氛围 ， 
以 进一步 激励 企业 乃至 个 人 珍视 信用 ,诚实 守信 。 对 企业 信用 分 类 监管 制度 进行 完善 ,首先 要 
充分 利用 大 数据 的 优势 ,完善 企业 主体 信用 数据 信息 。 当 前 ,金融 机 构 对 个 人 信用 信息 的 构建 
是 比较 完善 的 ,在 对 企业 信用 信息 的 完善 过 程 中 可 利用 金融 机 构 所 具有 的 个 人 信用 信息 ,对 企 
业主 、 企 业 负责 人 ,法定 代 表 人 、 股 东 等 与 企业 信用 密切 相关 的 个 人 信息 进行 收集 融合 。 其 次 ， 
在 信用 监管 的 过 程 中 应 对 监管 等 级 进行 分 类 细 化 。 对 企业 信用 等 级 可 采取 平 级 制 方法 ,分 别 
设立 A、B.C 不 同 的 信用 等 级 ,对 企业 信用 进行 量化 管理 ,激发 企业 自主 地 进行 诚信 建设 。 

2. 做 好 大 数据 环境 下 企业 信用 法 律 监管 的 保障 工作 

提升 大 数据 技术 处 理 能 力 与 企业 信用 监管 水 平 大 数据 环境 下 ,要 实现 海量 数据 的 有 效 
整合 ,挖掘 数据 信息 提升 信息 价值 ,就 必须 进行 多 种 技术 的 协同 。 数 据 挖 掘 与 收集 、 处 理 及 
分 析 是 大 数据 下 企业 信用 数据 处 理 的 主要 过 程 ,对 数据 进行 挖掘 、 存 储 、 使 用 时 必然 会 涉及 
引擎 搜索 技术 、 云 计算 处 理 技术 以 及 数据 库 技术 等 一 系列 的 高 新 技术 。 所 以 ,在 大 数据 环境 
下 要 对 企业 信用 进行 高 效 监 管 ,必须 增强 学 习 意 识 和 技术 观念 ,提高 自身 技能 ,才能 对 不 法 
企业 运用 大 数据 技术 扰乱 信用 监管 秩序 的 行为 进行 有 效 监管 ,实现 有 的 放 矢 , 堵 住 不 法 企业 
钻 技术 漏洞 的 空子 。 同 时 ,监管 过 程 中 还 应 提升 根据 现 有 数据 对 企业 未 来 信用 行为 的 预测 
能 力 , 实 现 对 企业 信用 动态 的 准确 把 握 , 防 患 于 未 然 ,将 不 法 行为 扼杀 于 萌芽 状态 ,引导 企业 
向 着 健康 的 方向 发 展 。 
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13.2 标准 体系 建设 


目前 ,大 数据 技术 相关 标准 的 研制 还 处 于 起 步 阶段 ,本 部 分 对 ISO/IEC、ITt 等 国际 标 
准 化 组 织 .NIST、 国 内 全 国信 息 技术 标准 会 技术 委员 会 已 经 开展 的 标准 化 工作 进行 梳理 ， 
依据 大 数据 技术 体系 ,从 基础 技术、 产品 、 应 用 等 不 同 角 度 进行 分 析 , 形 成 了 大 数据 标准 
体系 框架 。 对 我 国 现 有 标准 、 在 研 标准 和 将 提出 的 标准 计划 进行 分 析 , 形 成 大 数据 标准 
体系 。 对 于 目前 急需 研制 的 标准 进行 了 较为 详细 的 分 析 , 这 部 分 将 成 为 后 续 标 准 化 工作 
的 重点 。 

大 数据 标准 体系 是 为 实现 大 数据 领域 的 标准 化 而 形成 的 体系 ,凡是 与 此 目的 有 关 的 大 
数据 领域 标准 之 间 都 存在 相互 依存 、 相 互 衔接 、 相 互补 先 、 相 互 制约 的 内 在 联系 ,最 终 形成 科 
学 的 有 机 整体 。 因 此 ,要 求 建立 的 标准 体系 具有 先进 性 ,在 应 用 系统 科学 理论 和 方法 的 基础 
上 ,运用 标准 化 的 工作 原理 ,着 眼 于 寻找 整套 的 标准 内 容 , 基 于 这 些 内 容 , 在 标准 体系 的 内 在 
联系 上 进行 统一 、 简 化 .协调 和 优化 等 处 理 , 力 求 体现 出 系统 内 标准 的 最 佳 秩序 ,防止 在 标准 
之 间 存 在 不 配套 ,不 协调 .互相 矛盾 及 组 成 不 合理 问题 。 

1. 大 数据 标准 体系 框架 

结合 国内 外 大 数据 标准 化 情况 、 国 内 大 数据 技术 发 展现 状 、 大 数据 参考 架构 及 标准 化 需 
求 , 根 据 数据 全 周期 处 理 , 数 据 自身 标准 化 特点 ,当前 各 领域 推动 大 数据 应 用 的 初步 实践 ,以 
及 未 来 大 数 杨 发 展 的 趋势 ,我 国 提出 了 大 数据 标准 体系 框架 。 

大 数据 标准 体系 由 7 个 类 别 的 标准 组 成 ,分 别 为 : 基础 标准 .数据 标准 、 技 术 标准 ,平台 
和 工具 标准 ,管理 标准 、 安 全 和 隐私 标准 .行业 应 用 标准 。 

(1) 基础 标准 。 为 整个 标准 体系 提供 包括 总 则 术语、 参考 模型 等 基础 性 标准 。 

(2) 数据 标准 。 该 类 标准 主要 针对 底层 数据 相关 要 素 进 行规 范 。 包 括 数 据 资源 和 数据 
交换 共享 两 部 分 ,其 中 ,数据 资源 包括 元 数据 、 数 据 元 素 、 数 据 字 典 和 数据 目录 等 ,数据 交换 
共享 包括 数据 交易 和 数据 开放 共享 相关 标准 。 

(3) 技术 标准 。 该 类 标准 主要 针对 大 数据 相关 技术 进行 规范 。 包 括 大 数据 集 描述 、 大 
数据 处 理 生命 周期 技术 和 操作 技术 三 类 标准 。 其 中 ,大 数据 集 描述 主要 针对 描述 模型 .分 类 
方法 、 质 量 模型 和 数据 溯源 等 方面 进行 规范 。 大 数据 处 理 生 命 周期 技术 主要 针对 数据 的 收 
集 、 预 处 理 、 分 析 、 可 视 化 .访问 等 进行 规范 。 

(4) 平台 和 工具 标准 。 该 类 标准 主要 针对 大 数据 相关 平台 和 工具 进行 规范 ,包括 系统 
级 产品 和 工具 级 产品 两 类 ,其 中 工具 及 产品 包括 平台 基础 设施 、 预 处 理 类 产品 存储 类 产品 、 
分 布 式 计算 工具 数据 库 产 品 .应 用 分 析 智 能 工具 ,平台 管理 工具 类 产品 的 技术 、 功 能 、 接 口 
等 进行 规范 。 相 应 的 测试 规范 针对 相关 产品 和 平台 给 出 测试 方法 和 要 求 。 

(5) 管理 标准 。 管 理 标 准 作为 数据 标准 的 支撑 体系 ,贯穿 于 数据 整个 生命 周期 的 各 个 
阶段 。 该 部 分 主要 是 对 数据 管理 、 运 维 管理 和 评估 三 个 层次 进行 规范 。 

(6) 安全 和 隐私 标准 。 数 据 安全 和 隐私 保护 同样 作为 数据 标准 的 支撑 体系 ,贯穿 于 数 
杨 整 个 生命 周期 的 各 个 阶段 。 抛 开 传 统 的 网 络 安全 和 系统 安全 ,大 数据 时 代 下 的 数据 安全 
标准 主要 包括 方法 指导 、 检 测评 估 和 要 求 三 类 标准 。 

(7) 行业 应 用 标准 。 行业 应 用 类 标准 主要 针对 大 数据 为 各 个 行业 所 能 提供 的 服务 角度 
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出 发 制定 的 规范 。 该 类 标准 指 的 是 各 领域 根据 其 领域 特性 产生 的 专用 数据 标准 ,包括 工业 、 
电子 商务 、 健 康 等 领域 。 
2. 大 数据 相关 标准 明细 


根据 大 数据 标准 体系 框架 ,整理 出 发 布 .报批 、 立 项 ,申报 、 在 研 以 及 计划 的 大 数据 相关 
国家 标准 99 项 ,大 数据 标准 明细 如 表 13-1 所 示 。 




























































































表 13-1 大 数据 标准 明细 
i 国家 标准 编号 标准 名 称 采用 标准 号 及 采用 程度 | 状态 
号 | 分 类 | 分 类 人 i 和 
1 总 则 信息 技术 大 数据 标准 化 指南 计划 
2 术语 | 20141191-T-469 信息 技术 大 数据 术语 在 研 
3 20141190-T-469 信息 技术 大 数据 技术 参考 模型 在 研 
信息 技术 大 数据 参考 架构 第 1 计划 
部 分 框架 和 应 用 指南 
5 基础 参考 信息 技术 大 数据 参考 架构 第 2 计划 
架构 部 分 用 例 和 需求 
信息 技术 大 数据 参考 架构 第 5 计划 
部 分 标准 路 线 图 
信息 技术 大 数据 基于 参考 架构 计划 
下 的 接口 框架 
8 GB/T 28821 1012 | 信息 技术 数据 元 素 值 格式 记 法 | 了 905， | 发布 
人 ,| 修订 GB/T 18142 一 2000: 
9 20101507-T-469 信息 技术 数据 元 案值 表示 ISO/IEC FDIS 14957: | 报批 
格式 记 法 
2009 
信息 技术 元 数据 注册 系统 |ISO/IEC 11179 一 1:2004， 
10 GB/T 18391. 1 一 2009 (MDR) 第 1 部 分 框架 i 发 布 
信息 技术 元 数据 注册 系统 |ISO/IEC 11179 一 2:2005， 
11 GB/T 18391. 2 一 2009 (MDR) 第 2 部 分 : 分 类 inr 发 布 
有 号 长 相 下 本 报 下 册 系 统 ISO/IEC 11179 一 3: 2003, 
GB/T 18391. 3 一 2009 | (MDR) 第 3 部 分 : 注册 系统 元 时 发 布 
数据 数据 模型 与 基本 属性 
资源 信息 技术 元 数据 注册 系统 1SO/IEC 11179—4, 2004, 
13 GB/T 18391. 4 一 2009 | (MDR) 第 4 部 分 : 数据 定义 的 iD 发 布 
形成 
信息 技术 元 数据 注册 系统 
14 GB/T 18391. 5 一 2009 | (MDR) 第 5 部 分 : 命名 和 标识 ee a 
原则 
信息 技术 元 数据 注册 系统 |ISO/IEC 11179 一 6:2005， 
15 GB/T 18391. 6 一 2009 DRy 基 6 者 分。 注 是 人 发 布 
16 GB/Z 21025 一 2007 “| XML 使 用 指南 发 布 
闪 息 技术 实现 下 数据 注册 系 些 ISO/IEC TR 20943—1: 
17 GB/T 23824. 1 一 2009 | 内 容 一 致 性 的 规程 第 1 部 分 : 数 发 布 
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续 表 
序 | 一 级 | 二 级 
示 准 编号 示 准 采用 标准 号 及 采 态 
号 | 分 类 | 分 类 国家 标准 编 标准 名 称 采用 标准 号 及 采用 程度 | 状 
信息 技术 实现 元 数据 注册 系统 
18 GB/T 23824.3 一 2009 | 内 容 一 致 性 的 规程 第 3 部 分 :| R20943 3 | 发布 
2004.IDT 
值 域 
19 GB/T 32392.1_2015 | 信息 技术 互 操作 性 元 模型 框架 有 


(MFD) 第 1 部 分 : 参考 模型 
信息 技术 互 操作 性 元 模型 框架 
20 GB/T 32392. 2 一 2015 (MED 第 2 部 分 ,核心 模型 发 布 
信息 技术 互 操作 性 元 模型 框架 
21 GB/T 32392. 3 一 2015 | (MFD) 第 3 部 分 : 本 体 注册 元 发 布 
模型 
信息 技术 互 操作 性 元 模型 框架 
22 GB/T 32392. 4 一 2015 | (MEFD 第 4 部 分 : 模型 映射 元 发 布 
模型 
数据 信息 技术 互 操作 性 元 模型 框架 
23 ,| 20132340-T-469 (MFD 第 5 部 分 : 过 程 模型 注册 在 研 
资料 2 

元 模型 
信息 技术 互 操作 性 元 模型 框架 
24 20132341-T-469 (MEFD 第 7 部 分 : 服务 模型 注册 在 研 
元 模型 
数据 信息 技术 互 操作 性 元 模型 框架 
25 20132342-T-469 (MFD 第 8 部 分 : 角色 与 目标 模 在 研 
型 注册 元 模型 
信息 技术 互 操 作 性 元 模型 框架 
26 20132343-T-469 CMED 第 9 部 分 ， 按 需 模型 选择 在 研 
信息 技术 元 数据 注册 系统 

























































































27 GB/T 30881—2014 CMDR) 模块 ISO/IEC 19773:2011 发 布 
信息 技术 通用 逻辑 (CL): 基于 
2 B/T 30880 一 201 ISO/IEC 24707:2007 
8 GB/T 30880 一 2014 逻辑 的 语言 族 框 如 SO/IEC 24707 :200 发 布 
29 2010-3325T-SJ 信息 技术 元 数据 属性 在 研 
信息 技术 大 数据 开放 数据 集 基 a 
30 本 要 求 计划 
信息 技术 大 数据 开放 数据 集 标 
31 识 管理 计划 
位 共享 多 
本 交换 信和 大 数据 开放 共享 第 1 计划 
共享 部 分 : 总 则 
人 信息 技术 大 数据 开放 共享 第 2 
33 部 分 : 政府 数据 开放 共享 基本 技 计划 
术 要 求 
六 E 
a 信息 技术 大 数据 开放 共享 第 3 计划 




















部 分 : 开放 程度 评价 
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续 表 
序 | 一 级 | 二 级 加 法 本 本 亚 用 标准 愉 肪 有 Ee 
号 | 分 类 | 分 类 国家 标准 编号 标准 名 称 采用 标准 号 及 采用 程度 | 状态 
成 信息 技术 大 数据 开放 共享 第 4 计划 
部 分 : 政府 资源 目录 体系 
信息 技术 数据 交易 服务 平台 通 
36 20141201-T-469 用 而 地 呈 示 在 研 
信息 技术 数据 交易 平台 交易 数 
37 20141200-T-469 
0141200- 据 描述 在 研 
信息 技术 数据 交易 通用 概念 是 
38 描述 计划 
交换 信息 技术 数据 交易 交易 流程 
39 计 
数据 | 共享 括 述 计划 
信息 技术 数据 交易 数据 管理 ee 
40 规范 计划 
41 信息 技术 数据 交易 技术 规范 计划 
42 信息 技术 数据 交易 风险 评估 计划 
信息 交 < 易 质 
本 人 技术 数据 交易 交易 质量 计划 
评估 
信息 技术 数据 交易 数据 价值 评 
4 计 
4 估 指 引 计划 
45 20141172-T-469 多 媒体 数据 语义 描述 要 求 在 研 
46 大 信息 技术 大 数据 分 类 指南 计划 
好 四 20141203-T-469 。 | 信息 技术 数据 质量 评价 指标 在 太 
48 描 信息 技术 数据 质量 检测 计划 
49 述 20141194-T-469 信息 技术 科学 数据 引用 在 研 
50 20141202-T-469 信息 技术 数据 溯源 描述 模型 在 研 
别 56 信息 技术 通用 数据 导入 接口 在 研 
规范 
信息 技术 通用 数据 导入 接口 测 
区 计 
5 二 试 规范 计划 
58 生命 信息 技术 大 数据 分 析 总 体 技 术 计划 
周期 要 求 
技术 信息 技术 大 数据 可 视 化 工具 通 人 
54 用 要 求 计划 
信息 技术 数据 库 语言 SQL 第 1|ISO/IEC 9075 一 1:2003， 
55 GB/T-12991 一 2008 部 。 框 恕 证 六 发 布 
互 操 
Bl 作 技 信息 歼 本 大 数据 互 染 作 技 坟 计划 
术 指南 




















(ee4 大 数据 . 教 据 管理 与 数据 工程 





























续 表 
序 一 级 二 级 屋 下 避 3 2 亚 电 L wm 站 大- 
号 | 分 类 | 分 类 | 。 国家 标准 编号 标准 名 称 采用 标准 号 及 采用 程度 | 状态 
信息 技术 大 数据 存储 与 处 理 系 _ 
57 计划 
统 基本 功能 要 求 
信息 技术 大 数据 存储 与 处 理 系 i 
外 网 统 功能 测试 规范 2 
统 
级 信息 技术 大 数据 分 析 系统 基本 
59 可 ， 计划 
’ 功能 要 求 
品 
信息 技术 大 数据 分 析 系统 功能 、 
60 计划 
测试 规范 
61 信息 技术 大 数据 系统 通用 规范 计划 








信息 技术 大 数据 面向 应 用 的 基 本 
础 计算 平台 基本 性 能 要 求 人 

































































63 GB/T 28821 一 1012 | 关系 数据 管理 系统 技术 要 求 发 布 
64 GB/T 30994 一 2014 ”| 关系 数据 库 管理 系统 检测 规范 发 布 
65 工 | GB/T 32633 一 2016 分 布 式 关系 煞 据 库 恨 务 接 昌 发 布 
规范 
具 
66 级 |20121409-T-469 非 结 构 化 数据 表示 规范 报批 
67 产 | 2ol21410-T-469 非 结构 化 数据 访问 接口 规范 报批 
PP 
EFE 结 E 
68 GB/T 32633 一 2016 关公 构 化 芭 提 管理 系 颖 技 过 发 布 
要 求 
69 20141183-T-469 实时 数据 库 通用 接口 规范 在 研 
70 非 结构 化 数据 查询 语言 计划 
71 智能 硬件 通用 大 数据 接口 规范 计划 
数据 本 
72 管理 信息 技术 大 数据 资产 管理 指南 计划 
运 维 信息 技术 大 数据 系统 运 维和 管 
9 计划 
管理 | 管理 理 功能 要 求 
信息 技术 大 数据 解决 方案 基本 、 
74 、 计划 
评估 评估 规范 


























75 20141184-T-469 数据 能 力 成 熟 度 评价 模型 在 研 
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续 表 
序 | 一 级 | 二 级 i E: 名 十 朱 准 习 关 问 ) 
号 | 分 类 | 分 类 国家 标准 编号 标准 名 称 采用 标准 号 及 采用 程度 | 状态 
os 信息 安全 技术 数据 库 管 理 系统 有 
76 GB/T 20009 一 2005 安全 评估 准则 发 布 
信息 安全 技术 数据 库 管 理 系 统 
vg GB/T 20273 一 2006 安全 技术 要 求 发 布 
信息 技术 安全 技术 信息 安全 管 |ISO/IEC 27001:2005， le 
78 GB/T 22080 一 2008 理 体系 要 求 IDT 发 布 
a 二 信息 技术 安全 技术 信息 安全 管 |ISO/IEC 27002:2005， 
79 GB/T 22081 一 2008 理 实用 规则 IDT 发 布 
a GB/T 31496 一 2015， | 信息 技术 安全 技术 信息 安全 管 | ISOVIEC 27003:2010， | 发布 
IDT 理 体系 实施 指南 IDT 
Bi 信息 安全 技术 大 数据 参考 架构 计划 
第 4 部 分 安全 和 隐私 
要 求 信息 安全 技术 大 数据 安全 分 级 i 
e 计划 
指南 
83 | 大 数 rst 大 数据 安全 参考 计划 
可 信息 安全 技术 数据 脱 敏 指南 计划 
85 | 隐私 信息 安全 技术 大 数据 平台 安全 计划 
技术 要 求 
训 信息 安全 技术 大 数据 跨 集 群 安 计划 
全 技术 框架 
a 信息 安全 技术 个 人 信息 保护 管 
和 20130323-T-469 理 要 求 在 研 
wy 信息 安全 技术 移动 智能 终端 个 
88 20130338-T-469 人 信息 保护 技术 要 求 在 研 
检查 信息 安全 技术 隐私 保护 评估 
89 | 。 | 评估 方法 Ws 
信息 安全 技术 大 数据 中 的 隐私 
90 保护 框架 计划 
91 方法 信息 安全 技术 个 人 信息 保护 立项 
指导 指南 
信息 安全 技术 公共 及 商用 服务 
a 6B/Z 28828 2012 | 信息 系统 个 人 信息 保护 指南 全 布 
93 信息 技术 工业 大 数据 术语 计划 
94 站 信息 技术 工业 大 数据 参考 架构 计划 
2 信息 技术 工业 大 数据 产品 核心 g 
95 元 数据 规范 计划 
据 信息 技术 工业 大 数据 工业 订单 
96 行业 元 数据 规范 计划 
应 用 信息 技术 电子 商务 大 数据 采集 
电 再 
97 对 规范 计划 
商 信息 技术 电子 商务 大 数据 仓库 
98 多 模型 规范 计划 
99 2 信息 技术 电子 商务 大 数据 应 用 计划 














指标 体系 
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2 st i 

通过 对 现 有 标准 进行 梳理 可 以 发 现 : 

(1) 在 数据 资源 方面 ,我 国 已 经 有 一 些 相关 标准 ,同样 适用 大 数据 的 应 用 。 

(2) 在 交换 共享 方面 ,由 于 近年 来 智慧 城市 的 快速 推进 ,政府 大 数据 进行 了 广泛 而 深入 
的 开放 共享 融合 ,但 数据 开放 共享 方面 标准 欠缺 较 多 。 虽 然 在 研 2 项 交易 类 标准 ,但 是 在 交 
易 流 程 和 交易 数据 管理 等 方面 的 标准 不 足 。 

(3) 在 技术 标准 方面 ,在 数据 访问 方面 ,底层 数据 库 标 准 和 数据 导入 方面 已 经 有 相关 标 
准 , 但 数据 分 析 、 可 视 化 等 缺乏 。 数 据 质量 是 大 数据 应 用 和 发 展 的 基础 ,都 处 于 在 研 阶段 。 
大 数据 安全 方面 , 虽 有 基础 安全 类 标准 ,但 缺乏 针对 大 数据 的 安全 框架 、 隐 私 、 访 问 控制 类 
标准 。 

(4) 在 大 数据 平台 和 工具 方面 ,也 主要 是 在 数据 库 、 非 结构 化 数据 管理 产品 类 方面 已 经 
在 研 或 发 布 ,但 在 大 数据 系统 级 相关 产品 的 标准 方面 欠缺 较 多 。 

总 之 ,针对 大 数据 标准 ,我 国 在 数据 管理 .信息 安全 等 方面 ,已 经 发 布 和 在 研一 些 标准 ， 
具有 大 数据 环境 的 基础 支撑 作用 ,但 在 整体 上 缺乏 统一 规划 ,相关 标准 缺失 较 多 。 尤 其 在 数 
据 开 放 共 享 ,数据 交易 ,数据 安全 ,系统 级 产品 等 方面 ,需要 尽早 补充 完善 。 


13.3 建立 标准 化 大 数据 治理 体系 


大 数据 治理 需要 建立 成 熟 度 模型 用 于 成 熟 度 评估 。 模 型 成 熟 指标 需要 从 以 下 11 个 方 
面 进 行 考虑 。 

(1) 业务 成 果 。 代 表 信 息 治 理 计 划 的 目标 和 目的 。 

(2) 组 织 结 构 和 认识 。 指 业务 部 门 和 IT 部 门 间 的 相互 责任 ,以 及 对 治理 不 同 管理 层次 
中 数据 的 信托 责任 的 认识 。 

(3) 管理 人 员 。 和 旨 在 保证 数据 监护 ,实现 资产 增值 .风险 消减 和 组 织 控制 的 质量 控制 
准则 。 

(4) 数据 风险 管理 。 据 以 识别 ,保留 、 量 化 ,规避 、 接 受 、 消 减 和 转嫁 风险 的 方法 论 。 

(5) 政策 。 期 望 得 到 落实 的 组 织 行 为 的 书面 表达 。 

(6) 数据 质量 管理 。 指 测量 ,提高 和 保证 产品 数据 ,测试 数据 和 归档 数据 的 质量 和 集成 
性 的 方法 。 

(7) 信息 生命 周期 管理 。 有 关 信 息 采集 、 使 用 .保留 和 删除 的 系统 化 的 .基于 策略 的 
方法 : 

(8) 信息 安全 与 隐私 。 组 织 用 于 消减 风险 和 保护 数据 资产 的 策略 .实践 和 控制 手段 。 

(9) 数据 架构 。 结 构 化 和 非 结 构 化 数据 系统 及 应 用 的 架构 式 设计 ,用 户 实现 数据 的 可 
用 性 ,并 将 数据 分 配给 合适 的 用 户 。 

(10) 分 类 和 元 数据 。 指 用 于 创建 常见 的 语义 定义 IT 术语、 数据 模型 和 数据 库 的 方法 
和 工具 。 

(11) 审计 信息 日 志和 报告 。 指 监测 和 测量 数据 价值 .风险 和 信息 治理 有 效 性 的 组 织 
流程 。 

图 13-1 总 结 了 IBM 信息 治理 委员 会 成 熟 度 模型 中 评估 信息 治理 成 熟 度 的 11 个 指标 。 

可 以 将 上 述 11 个 指标 归纳 为 以 下 4 类 。 

(1) 目标 。 指 信息 治理 计划 的 预期 结果 。 目 标 倾 向 于 关注 降低 风险 与 提升 价值 ,这 反 


第 13 章 类 数据 工程 保障 体系 建设 387) 


过 来 又 受降 低 成 本 和 提高 收入 的 驱动 。 
(2) 支持 要 素 。 包 括 组 织 结构 和 认识 ,管理 人 员 数据 风险 管理 及 政策 。 
(3) 核心 准则 。 包 括 数据 质量 管理 .信息 生 命 周 期 管理 ,以 及 信息 安全 和 隐私 。 
(4) 支持 准则 。 包 括 数据 架构 、 分 类 和 元 数据 ,以 及 升级 信息 日 志和 报告 。 
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图 13-1 IBM 信息 治理 委员 会 的 成 熟 度 模型 

















13.4 加 强大 数据 行业 应 用 研究 


大 数据 行业 应 用 是 大 数据 发 展 的 原动力 ,基于 大 数据 各 个 领域 .各 个 层次 都 提出 了 丰富 
多 样 的 应 用 需求 。 加 强 对 大 数据 行业 应 用 需求 分 析 、 开 展 对 相关 领域 需求 的 研究 ,展开 有 针 
对 性 应 用 问题 的 个 性 化 研究 ,也 要 进行 业务 需求 问题 的 共性 研究 ,行业 领域 业务 需求 组 织 层 
次 、 系 统 框架 、 逻 辑 关系 、 组 织 关联 等 行业 需求 特点 研究 。 梳 理 整个 大 数据 生态 系统 脉络 体 
系 ,把 握 行 业 领 域 重 要 发 展 方向 ,研究 行业 标准 和 制度 规范 。 


13.5 加 强 元 数据 的 研究 和 应 用 


在 大 数据 时 代 ,借助 于 元 数据 了 解数 据 元 素 含义 和 上 下 文 的 需求 越 来 越 强 烈 ,缺乏 统一 
的 数据 描述 。 加 强 元 数据 标准 或 元 数据 模型 的 研究 和 应 用 ,健全 完善 元 数据 标准 规范 及 元 
数据 模型 。 充 分 结合 政府 各 部 分 现 有 数据 资源 建设 情况 ,针对 当前 政务 大 数据 资源 .工业 大 
数据 资源 .电子 商务 大 数据 资源 等 重点 领域 ,研制 元 数据 标准 或 统一 的 元 数据 标准 模型 框 
架 , 建 立 元 数据 资源 库 , 使 得 大 数据 向 着 标准 化 、 条 理化 、 脉 络 化 方向 发 展 。 


13.6 加 强大 数据 核心 技术 研究 


近年 来 ,大 数据 产业 已 经 成 为 影响 全 球 未 来 社会 经 济 发 展 的 战略 性 新 兴 领 域 , 应 用 需求 
强烈 ,需要 不 断 完 善 大 数据 核心 技术 体系 ,突破 或 改变 现 有 的 大 数据 采集 分析、 存储 管理 等 
关键 技术 ,加 强 信息 组 织 和 数据 仓库 研究 ,形成 自主 可 控 的 大 数据 核心 技术 架构 ,为 大 数据 


as 大 数据 . 教 据 管理 与 数据 工程 


获取 、 管 理 和 分 析 提 供 技术 保障 。 


13.7 促进 大 数据 交易 市 场 的 规范 化 发 展 


随 着 大 数据 技术 的 成 熟 和 发 展 ,大 数据 交易 市 场 的 建立 ,大 数据 在 商业 上 的 应 用 越 来 越 
广泛 ,完善 相应 的 标准 及 管理 制度 ,规范 大 数据 交易 市 场 ,推动 行业 自律 ,打造 完善 ,健康 、 有 
序 的 交易 产业 链条 ,从 交易 平台 、 交 易 主 体 、 交 易 对 象 等 多 个 方面 规范 交易 市 场 行为 ,对 交易 
市 场 内 的 在 线 数据 交易 、 离 线 数据 交易 .托管 数据 交易 等 数据 交易 模式 进行 规范 。 有 效 解决 
数据 交易 中 各 方 的 困惑 , 理 顺 市 场 渠道 ,规范 数据 交易 行为 。 


13.8 推动 大 数据 标准 化 进程 


大 数据 标准 化 工作 是 支撑 大 数据 产业 发 展 和 应 用 的 重要 基础 。 

1. 借助 产 学 研一 体 化 平台 .建立 标准 化 体系 

做 好 促进 产 学 研 结合 的 基础 工作 ,包括 构建 产 学 研 信 息 沟通 平台 ,举办 会 议 .论坛 项 目 
调研 沟通 交流 等 活动 ,促进 产 学 研 各 方 的 信息 沟通 与 交流 。 要 借助 产 学 研一 体 化 信息 服务 
平台 ,整合 高 等 院 校 科 研 院 所 、 高 科技 企业 等 创新 资源 ,在 科研 机 构 与 企业 单位 之 间 搭 建 一 
个 产 学 研 合作 的 桥梁 。 充 分 发 挥 产 学 研 用 各 方 力 量 , 调 动 一 切 积极 因素 ,加 强大 数据 标准 化 
顶层 设计 ,从 国家 层面 制定 大 数据 标准 规范 ,建立 统一 的 数据 标准 和 技术 规范 。 

2. 推动 大 数据 技术 研发 成果 转化 和 知识 产权 保护 

强化 大 数据 标准 化 意识 ,完善 大 数据 标准 应 用 环境 ,推广 标准 的 试点 示范 ,结合 重点 地 
区 ,行业 标准 化 示范 区 工作 ,发 挥 各 地 方 、 各 领域 在 大 数据 标准 化 工作 中 的 资源 优势 ,不 断 推 
动 大 数据 产业 标准 化 和 可 持续 发 展 。 支 持 企业 加 强大 数据 研发 投入 ,采取 多 种 措施 提升 自 
主创 新 能 力 ; 支持 企业 和 产业 联盟 参与 承担 科技 大 数据 专项 、 各 类 科技 计划 项 目 等 。 提 高 
创新 主体 创造 、 运 用 、 管 理 和 保护 知识 产权 的 能 力 。 政 府 通过 补贴 奖励 等 措施 ,支持 创新 创 
业主 体 获 得 专利 权 、 商 标注 册 和 版 权 登 记 ; 支持 创新 创业 主体 参与 创制 标准 、 成 立 标准 联 
盟 , 推 动 大 数据 技术 标准 的 产业 化 应 用 。 

3. 建立 人 才 引 进 保障 机 制 \ 促 进 人 才 良 性 循环 

完善 大 数据 建设 人 才 、 智 力 和 项 目 相 结合 的 柔性 引进 机 制 , 畅 通 人 才 引 进 绿色 通道 。 充 
分 发 挥 物 质 和 荣誉 的 双重 激励 作用 ,创建 培养 人 才 、 吸 引 人 才 、 用 好 人 才 、 留 住人 才 的 良好 环 
境 。 大 力 培养 .引进 和 高 水 平 使 用 一 批复 合 型 高 层次 大 数据 人 才 、 信 息 专 业 技术 人 才 、 高 技 
能 人 才 、 物 联网 科技 人 才 和 数据 挖掘 和 知识 发 现 人 才 以 及 网 络 设施 与 商业 应 用 经 营 管理 
人 才 。 
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